論文の概要: LVLMs are Bad at Overhearing Human Referential Communication
- arxiv url: http://arxiv.org/abs/2509.11514v1
- Date: Mon, 15 Sep 2025 02:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.121642
- Title: LVLMs are Bad at Overhearing Human Referential Communication
- Title(参考訳): LVLMは人間とのコミュニケーションを過度に聴くのが苦手
- Authors: Zhengxiang Wang, Weiling Li, Panagiotis Kaliosis, Owen Rambow, Susan E. Brennan,
- Abstract要約: 本研究では、7つの最先端の大規模視覚言語モデル(Large Vision Language Models)を,自発的会話のコーパスのオーバーハーパーとして活用する能力について検討する。
このようなタスクは、現在のLVLMでは依然として困難であり、いずれも一貫したパフォーマンス改善を示せません。
- 参考スコア(独自算出の注目度): 12.45317515017514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During spontaneous conversations, speakers collaborate on novel referring expressions, which they can then re-use in subsequent conversations. Understanding such referring expressions is an important ability for an embodied agent, so that it can carry out tasks in the real world. This requires integrating and understanding language, vision, and conversational interaction. We study the capabilities of seven state-of-the-art Large Vision Language Models (LVLMs) as overhearers to a corpus of spontaneous conversations between pairs of human discourse participants engaged in a collaborative object-matching task. We find that such a task remains challenging for current LVLMs and they all fail to show a consistent performance improvement as they overhear more conversations from the same discourse participants repeating the same task for multiple rounds. We release our corpus and code for reproducibility and to facilitate future research.
- Abstract(参考訳): 自発的な会話の間、話者は新しい参照表現に協力し、その後の会話で再利用することができる。
このような参照表現を理解することは、実世界でタスクを実行するために、エンボディエージェントにとって重要な能力である。
これは言語、ビジョン、会話の相互作用の統合と理解を必要とする。
協調的なオブジェクトマッチング作業に従事した2組の会話参加者間の自発的な会話のコーパスのオーバーハーパーとして、7つの最先端のLVLM(Large-of-the-the-art Large Vision Language Models)の能力について検討した。
このようなタスクは現在のLVLMでは依然として困難であり、同一の談話参加者からの会話が複数ラウンドで同じタスクを繰り返しているのを耳にしているため、いずれも一貫したパフォーマンス向上を示すことができない。
我々は、再現性のためのコーパスとコードをリリースし、将来の研究を促進する。
関連論文リスト
- Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Sibyl: Empowering Empathetic Dialogue Generation in Large Language Models via Sensible and Visionary Commonsense Inference [40.96005200292604]
感性とビジョンコモンセンス知識(Sibyl)という革新的な枠組みを提示する。
それは、より共感的な反応を引き出すことを目的として、すぐに続く対話に集中するように設計されている。
実験結果から,LLMにコモンセンス知識を習得するためのパラダイムを取り入れることで,その応答の質を総合的に向上することが示された。
論文 参考訳(メタデータ) (2023-11-26T14:35:23Z) - Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue [73.69510478736483]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。
しかし、それらは重要な能力、コミュニケーションスキルを欠いている。
本稿は,内的モノローグによるLLMのコミュニケーション能力向上を目的としている。
実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T16:19:42Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。