論文の概要: Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction
- arxiv url: http://arxiv.org/abs/2406.12707v1
- Date: Tue, 18 Jun 2024 15:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:18:55.610441
- Title: Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction
- Title(参考訳): 人間のようなエージェントとの会話:知覚的音響受容と反応を通しての共感的対話
- Authors: Haoqiu Yan, Yongxin Zhu, Kai Zheng, Bing Liu, Haoyu Cao, Deqiang Jiang, Linli Xu,
- Abstract要約: PerceptiveAgentは、より深い意味またはより微妙な意味を識別するために設計された共感的マルチモーダル対話システムである。
PerceptiveAgentは入力音声から音響情報を知覚し、自然言語で記述された話し方に基づいて共感応答を生成する。
- 参考スコア(独自算出の注目度): 23.115506530649988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-enhanced agents become increasingly prevalent in Human-AI communication, offering vast potential from entertainment to professional domains. However, current multi-modal dialogue systems overlook the acoustic information present in speech, which is crucial for understanding human communication nuances. This oversight can lead to misinterpretations of speakers' intentions, resulting in inconsistent or even contradictory responses within dialogues. To bridge this gap, in this paper, we propose PerceptiveAgent, an empathetic multi-modal dialogue system designed to discern deeper or more subtle meanings beyond the literal interpretations of words through the integration of speech modality perception. Employing LLMs as a cognitive core, PerceptiveAgent perceives acoustic information from input speech and generates empathetic responses based on speaking styles described in natural language. Experimental results indicate that PerceptiveAgent excels in contextual understanding by accurately discerning the speakers' true intentions in scenarios where the linguistic meaning is either contrary to or inconsistent with the speaker's true feelings, producing more nuanced and expressive spoken dialogues. Code is publicly available at: \url{https://github.com/Haoqiu-Yan/PerceptiveAgent}.
- Abstract(参考訳): 大型言語モデル (LLM) に強化されたエージェントは、エンターテイメントからプロのドメインへの大きな可能性を秘めている。
しかし、現在のマルチモーダル対話システムは、人間のコミュニケーションのニュアンスを理解する上で重要な音声情報を見落としている。
この監視は、話者の意図を誤解させ、対話の中で矛盾する、あるいは矛盾する応答をもたらす。
このギャップを埋めるため、本論文では、音声モーダル知覚の統合により、単語のリテラル解釈を超えて、より深く、より微妙な意味を識別するための共感的マルチモーダル対話システムであるPerceptiveAgentを提案する。
PerceptiveAgentは、LLMを認知的中心として、入力音声から音響情報を知覚し、自然言語で記述された話し方に基づいた共感応答を生成する。
実験結果から, 言語的意味が話者の本当の感情に反するか矛盾している場合において, 話者の真意を正確に把握し, よりニュアンスで表現力のある音声対話を生み出すことにより, 文脈的理解に優れることが示唆された。
コードは: \url{https://github.com/Haoqiu-Yan/PerceptiveAgent}で公開されている。
関連論文リスト
- Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - Context-Dependent Embedding Utterance Representations for Emotion
Recognition in Conversations [1.8126187844654875]
我々は会話の文脈を利用した会話における感情認識にアプローチする。
それぞれの発話の文脈依存的な埋め込み表現を提案する。
提案手法の有効性は,オープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証される。
論文 参考訳(メタデータ) (2023-04-17T12:37:57Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Will I Sound Like Me? Improving Persona Consistency in Dialogues through
Pragmatic Self-Consciousness [62.55060760615656]
一貫性に対処する最近のモデルは、しばしば追加の自然言語推論(NLI)ラベルでトレーニングするか、あるいは一貫性を維持するためにトレーニングされた追加モジュールを生成エージェントにアタッチする。
社会的認知と実用性に触発されて、私たちは既存の対話エージェントに、想像上のリスナーを通して、公的な自己意識を持たせました。
我々のアプローチは、Rational Speech Actsフレームワークに基づいて、会話エージェントに矛盾の発声を控えるように強制することができる。
論文 参考訳(メタデータ) (2020-04-13T08:16:16Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。