論文の概要: Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind
- arxiv url: http://arxiv.org/abs/2305.19933v1
- Date: Wed, 31 May 2023 15:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:52:48.273783
- Title: Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind
- Title(参考訳): 聞き手の言葉--プラグ・アンド・プレイ・マインド理論によるオーディエンスを意識した適応
- Authors: Ece Takmaz, Nicolo' Brandizzi, Mario Giulianelli, Sandro Pezzelle,
Raquel Fern\'andez
- Abstract要約: 我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
- 参考スコア(独自算出の注目度): 4.052000839878213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue participants may have varying levels of knowledge about the topic
under discussion. In such cases, it is essential for speakers to adapt their
utterances by taking their audience into account. Yet, it is an open question
how such adaptation can be modelled in computational agents. In this paper, we
model a visually grounded referential game between a knowledgeable speaker and
a listener with more limited visual and linguistic experience. Inspired by
psycholinguistic theories, we endow our speaker with the ability to adapt its
referring expressions via a simulation module that monitors the effectiveness
of planned utterances from the listener's perspective. We propose an adaptation
mechanism building on plug-and-play approaches to controlled language
generation, where utterance generation is steered on the fly by the simulator
without finetuning the speaker's underlying language model. Our results and
analyses show that our approach is effective: the speaker's utterances become
closer to the listener's domain of expertise, which leads to higher
communicative success.
- Abstract(参考訳): 対話参加者は、議論中のトピックについて様々なレベルの知識を持つことができる。
このような場合、話者はオーディエンスを考慮し、自分の発話に適応することが不可欠である。
しかし、そのような適応が計算エージェントでどのようにモデル化されるかは疑問である。
本稿では,より限定的な視覚的・言語的経験を持つ話者と聞き手との視覚的接地型参照ゲームをモデル化する。
心理言語学的な理論に触発された話者は、聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを通して参照表現を適応できる能力を持つ。
制御言語生成のためのプラグイン・アンド・プレイ方式に基づく適応機構を提案し、話者の基盤となる言語モデルを微調整することなく、シミュレータによって発話生成を高速に制御する。
結果と分析の結果,話者の発話は聞き手の専門知識の領域に近くなり,コミュニケーションの成功に繋がる,というアプローチが有効であることがわかった。
関連論文リスト
- SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction [23.115506530649988]
PerceptiveAgentは、より深い意味またはより微妙な意味を識別するために設計された共感的マルチモーダル対話システムである。
PerceptiveAgentは入力音声から音響情報を知覚し、自然言語で記述された話し方に基づいて共感応答を生成する。
論文 参考訳(メタデータ) (2024-06-18T15:19:51Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Joining the Conversation: Towards Language Acquisition for Ad Hoc Team
Play [1.370633147306388]
本稿では,アドホックチームプレイ問題の特定の形態として,協調言語獲得の問題を提案し,考察する。
本稿では, 話者の意図と聞き手の意味を, 言語利用者チーム間のコミュニケーションの観察から推定する確率論的モデルを提案する。
論文 参考訳(メタデータ) (2023-05-20T16:59:27Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Know your audience: specializing grounded language models with listener
subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:52:08Z) - Learning to Mediate Disparities Towards Pragmatic Communication [9.321336642983875]
言語コミュニケーションに類似した能力を持つAIエージェントを構築するためのフレームワークとして,Pragmatic Rational Speaker (PRS)を提案する。
PRSは、作業メモリに軽量の差分調整層を追加することにより、話者-リスナーの差分を学習し、それに応じて音声を調整しようとする。
長期メモリを修正することで、PSSは様々なタイプのリスナを学習し適応するためにのみ、動作メモリを更新する。
論文 参考訳(メタデータ) (2022-03-25T14:46:43Z) - Speaker Information Can Guide Models to Better Inductive Biases: A Case
Study On Predicting Code-Switching [27.68274308680201]
社会言語学的に座屈した話者特徴を事前のプロンプトとして付加すると精度が著しく向上することを示す。
私たちは、コードスイッチングのためのニューラルモデルに話者特性を取り入れた最初の人です。
論文 参考訳(メタデータ) (2022-03-16T22:56:58Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。