論文の概要: Learning to Generate Context-Sensitive Backchannel Smiles for Embodied
AI Agents with Applications in Mental Health Dialogues
- arxiv url: http://arxiv.org/abs/2402.08837v1
- Date: Tue, 13 Feb 2024 22:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:34:15.374931
- Title: Learning to Generate Context-Sensitive Backchannel Smiles for Embodied
AI Agents with Applications in Mental Health Dialogues
- Title(参考訳): メンタルヘルス対話における身体的AIエージェントの文脈感性バックチャネルスマイル生成の学習
- Authors: Maneesh Bilalpur, Mert Inan, Dorsa Zeinali, Jeffrey F. Cohn and Malihe
Alikhani
- Abstract要約: 高度な対話能力を持つ身体的エージェントは、従来の介護方法に対する有望で費用対効果の高いサプリメントとして出現する。
心身の健康、病気、関係などの話題について、親密な対面会話の動画の中で、バックチャネルの笑顔に注釈を付けた。
音声韻律と言語と話者とリスナーの人口統計から得られた手がかりを用いて,バックチャネル・スマイルの強度の有意な予測因子が得られた。
- 参考スコア(独自算出の注目度): 21.706636640014594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Addressing the critical shortage of mental health resources for effective
screening, diagnosis, and treatment remains a significant challenge. This
scarcity underscores the need for innovative solutions, particularly in
enhancing the accessibility and efficacy of therapeutic support. Embodied
agents with advanced interactive capabilities emerge as a promising and
cost-effective supplement to traditional caregiving methods. Crucial to these
agents' effectiveness is their ability to simulate non-verbal behaviors, like
backchannels, that are pivotal in establishing rapport and understanding in
therapeutic contexts but remain under-explored. To improve the rapport-building
capabilities of embodied agents we annotated backchannel smiles in videos of
intimate face-to-face conversations over topics such as mental health, illness,
and relationships. We hypothesized that both speaker and listener behaviors
affect the duration and intensity of backchannel smiles. Using cues from speech
prosody and language along with the demographics of the speaker and listener,
we found them to contain significant predictors of the intensity of backchannel
smiles. Based on our findings, we introduce backchannel smile production in
embodied agents as a generation problem. Our attention-based generative model
suggests that listener information offers performance improvements over the
baseline speaker-centric generation approach. Conditioned generation using the
significant predictors of smile intensity provides statistically significant
improvements in empirical measures of generation quality. Our user study by
transferring generated smiles to an embodied agent suggests that agent with
backchannel smiles is perceived to be more human-like and is an attractive
alternative for non-personal conversations over agent without backchannel
smiles.
- Abstract(参考訳): 効果的なスクリーニング、診断、治療のためのメンタルヘルス資源の欠如に対処することは重要な課題である。
この不足は、特に治療支援のアクセシビリティと有効性を高めるために、革新的な解決策の必要性を浮き彫りにしている。
高度にインタラクティブな能力を持つ具体化されたエージェントは、伝統的な介護方法の有望で費用対効果の高いサプリメントとして現れる。
これらのエージェントの有効性には、バックチャネルのような非言語的な行動をシミュレートする能力が重要である。
インボディードエージェントのラプポート構築能力を向上させるため,精神保健,病気,関係性などの話題に関する親密な対面会話のビデオに,バックチャネルの笑顔を付加した。
我々は、話者とリスナーの行動がバックチャネルスマイルの持続時間と強度に影響すると仮定した。
音声韻律と言語と話者とリスナーの人口統計から得られた手がかりを用いて,バックチャネル・スマイルの強度の有意な予測因子が得られた。
本研究は,遺伝子組換え剤の逆チャネル笑顔生成を世代問題として導入した。
注意に基づく生成モデルでは,聞き手情報がベースライン話者中心生成手法よりもパフォーマンスが向上することが示唆された。
スマイル強度の有意な予測器を用いた条件付き生成は、生成品質の実証的測定において統計的に有意な改善をもたらす。
本研究では,生成した笑顔を具体化エージェントに伝達することで,バックチャネルスマイルを持つエージェントはより人間らしく,バックチャネルスマイルのないエージェントよりも非個人的会話に魅力的な選択肢であることが示唆された。
関連論文リスト
- Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - A Self-supervised Framework for Improved Data-Driven Monitoring of
Stress via Multi-modal Passive Sensing [7.084068935028644]
ストレス応答の生理的前駆体を追跡するための多モード半教師付きフレームワークを提案する。
本手法は,ウェアラブルデバイスと異なる領域と解像度のマルチモーダルデータの利用を可能にする。
実世界のデータのコーパスを用いて、知覚的ストレスに関するトレーニング実験を行う。
論文 参考訳(メタデータ) (2023-03-24T20:34:46Z) - Response-act Guided Reinforced Dialogue Generation for Mental Health
Counseling [25.524804770124145]
本稿では、メンタルヘルスカウンセリング会話のための対話行動誘導応答生成器READERについて述べる。
READERは変換器上に構築されており、次の発話に対する潜在的な対話行為d(t+1)を共同で予測し、適切な応答u(t+1)を生成する。
ベンチマークカウンセリング会話データセットであるHOPE上でREADERを評価する。
論文 参考訳(メタデータ) (2023-01-30T08:53:35Z) - TalkTive: A Conversational Agent Using Backchannels to Engage Older
Adults in Neurocognitive Disorders Screening [51.97352212369947]
高齢者とヒトの認知的評価に関する246の会話を分析した。
反応性バックチャネルと活性性バックチャネルのカテゴリーを抽出した。
これは、バックチャネルのタイミングと形式の両方を予測することができるCAであるTalkTiveの開発に使用される。
論文 参考訳(メタデータ) (2022-02-16T17:55:34Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Towards Learning to Speak and Hear Through Multi-Agent Communication
over a Continuous Acoustic Channel [21.503787009047677]
私たちは、継続的なコミュニケーションチャネルでエージェント間の緊急言語を観察できますか?
本稿では,話者エージェントが雑音の多い音響チャンネル上でリスナーに属性のセットを伝達する必要があるメッセージング環境を提案する。
DQN を用いてエージェントを訓練すると,(1) 個別の場合とは異なり,音響話者はリスナーのコヒーレンシー向上のために冗長性を学習し,(2) ノイズチャネル上の伝達誤差を暗黙的に補償する,より構成的な通信プロトコルを開発し,(3) DQN はREINFORCE を用いて最適化された手法と比較して,顕著な性能向上と構成性の向上を示した。
論文 参考訳(メタデータ) (2021-11-04T12:44:18Z) - Automated Quality Assessment of Cognitive Behavioral Therapy Sessions
Through Highly Contextualized Language Representations [34.670548892766625]
認知行動療法(Cognitive Behavioral Therapy, CBT)という,特定の心理療法の行動自動スコアリングモデルを提案する。
このモデルは高い解釈可能性を達成するためにマルチタスクで訓練される。
BERTベースの表現は、利用可能な治療メタデータでさらに拡張され、関連する非言語的コンテキストを提供し、一貫したパフォーマンス改善につながります。
論文 参考訳(メタデータ) (2021-02-23T09:22:29Z) - MET: Multimodal Perception of Engagement for Telehealth [52.54282887530756]
ビデオから人間のエンゲージメントレベルを知覚する学習ベースアルゴリズムMETを提案する。
我々はメンタルヘルス患者のエンゲージメント検出のための新しいデータセットMEDICAをリリースした。
論文 参考訳(メタデータ) (2020-11-17T15:18:38Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。