論文の概要: AV-EmoDialog: Chat with Audio-Visual Users Leveraging Emotional Cues
- arxiv url: http://arxiv.org/abs/2412.17292v1
- Date: Mon, 23 Dec 2024 05:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:53.685794
- Title: AV-EmoDialog: Chat with Audio-Visual Users Leveraging Emotional Cues
- Title(参考訳): AV-EmoDialog:感情的キューを活用するオーディオビジュアルユーザとのチャット
- Authors: Se Jin Park, Yeonju Kim, Hyeongseop Rha, Bella Godiva, Yong Man Ro,
- Abstract要約: AV-EmoDialogは,ユーザの音声・視覚入力からの言語情報や非言語情報を利用して,より応答性が高く共感的な対話を生成するための対話システムである。
AV-EmoDialogは、音声と視覚の対話における感情の手がかりを体系的に活用し、音声から音声の内容と感情のトーンを抽出し、視覚からきめ細かい表情を分析し、これらの手がかりを統合し、エンドツーエンドで感情的な反応を生成する。
- 参考スコア(独自算出の注目度): 37.96886343501444
- License:
- Abstract: In human communication, both verbal and non-verbal cues play a crucial role in conveying emotions, intentions, and meaning beyond words alone. These non-linguistic information, such as facial expressions, eye contact, voice tone, and pitch, are fundamental elements of effective interactions, enriching conversations by adding emotional and contextual depth. Recognizing the importance of non-linguistic content in communication, we present AV-EmoDialog, a dialogue system designed to exploit verbal and non-verbal information from users' audio-visual inputs to generate more responsive and empathetic interactions. AV-EmoDialog systematically exploits the emotional cues in audio-visual dialogues; extracting speech content and emotional tones from speech, analyzing fine-grained facial expressions from visuals, and integrating these cues to generate emotionally aware responses in an end-to-end manner. Through extensive experiments, we validate that the proposed AV-EmoDialog outperforms existing multimodal LLMs in generating not only emotionally appropriate but also contextually appropriate responses.
- Abstract(参考訳): 人間のコミュニケーションにおいて、言語と非言語の両方の手がかりは、感情、意図、意味を言葉以外にも伝達する上で重要な役割を担っている。
これらの非言語情報、例えば表情、アイコンタクト、声調、ピッチは効果的な相互作用の基本的な要素であり、感情的および文脈的深度を加えることによって会話を豊かにする。
AV-EmoDialogは,コミュニケーションにおける非言語的コンテンツの重要性を認識し,ユーザの音声・視覚入力から言語的・非言語的情報を活用し,より応答性・共感的な対話を生成するための対話システムである。
AV-EmoDialogは、音声と視覚の対話における感情の手がかりを体系的に活用し、音声から音声の内容と感情のトーンを抽出し、視覚からきめ細かい表情を分析し、これらの手がかりを統合し、エンドツーエンドで感情的な反応を生成する。
AV-EmoDialog は感情的に適切なだけでなく、文脈的に適切な応答を生成するため、既存のマルチモーダル LLM よりも優れていることが検証された。
関連論文リスト
- Personality-affected Emotion Generation in Dialog Systems [67.40609683389947]
ダイアログシステムに与えられた個性に基づいて感情を生成する新しいタスクであるパーソナリティ影響感情生成を提案する。
本課題の課題,すなわち,(1)個性と感情的要因を不均一に統合し,(2)対話場面における多粒性感情情報を抽出する。
その結果,感情生成性能はマクロF1では13%,重み付きF1では5%向上することが示唆された。
論文 参考訳(メタデータ) (2024-04-03T08:48:50Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI [48.67259855309959]
会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
CPEDは,中国における大規模パーソナライズされた感情対話データセットである。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
論文 参考訳(メタデータ) (2022-05-29T17:45:12Z) - EmoWOZ: A Large-Scale Corpus and Labelling Scheme for Emotion in
Task-Oriented Dialogue Systems [3.3010169113961325]
EmoWOZはタスク指向対話の大規模手動感情注釈コーパスである。
11K以上の対話と83K以上の感情アノテーションを含む。
本稿では,タスク指向対話に適した新しい感情ラベリング手法を提案する。
論文 参考訳(メタデータ) (2021-09-10T15:00:01Z) - Generating Empathetic Responses with a Large Scale Dialog Dataset [0.76146285961466]
既存のモデルは、応答生成を導くために事前に定義された感情情報を直接組み込むか、応答感情を決定する決定論的ルールを使用する。
6000以上の人的評価インスタンスのベースラインと比較して,マルチターン共感ダイアログモデルの構築方法を示す。
論文 参考訳(メタデータ) (2021-05-14T13:45:40Z) - Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network
for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。
感情的会話生成のための異種グラフモデルを提案する。
実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文 参考訳(メタデータ) (2020-12-09T06:09:31Z) - Knowledge Bridging for Empathetic Dialogue Generation [52.39868458154947]
外部知識の不足により、感情的な対話システムは暗黙の感情を知覚し、限られた対話履歴から感情的な対話を学ぶことが困難になる。
本研究では,情緒的対話生成における感情を明確に理解し,表現するために,常識的知識や情緒的語彙的知識などの外部知識を活用することを提案する。
論文 参考訳(メタデータ) (2020-09-21T09:21:52Z) - Speech Driven Talking Face Generation from a Single Image and an Emotion
Condition [28.52180268019401]
音声駆動音声合成における視覚的感情表現のレンダリングのための新しい手法を提案する。
本研究では, 音声音声, 単一顔画像, カテゴリー感情ラベルを入力として, エンドツーエンドの音声音声生成システムの設計を行う。
画像品質,視覚的同期,視覚的感情表現を客観的に評価した結果,提案システムは最先端のベースラインシステムよりも優れていた。
論文 参考訳(メタデータ) (2020-08-08T20:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。