論文の概要: Measuring How (Not Just Whether) VLMs Build Common Ground
- arxiv url: http://arxiv.org/abs/2509.03805v1
- Date: Thu, 04 Sep 2025 01:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.008919
- Title: Measuring How (Not Just Whether) VLMs Build Common Ground
- Title(参考訳): VLMがいかにして(単に)共通基盤を構築するかを測定する
- Authors: Saki Imai, Mert İnan, Anthony Sicilia, Malihe Alikhani,
- Abstract要約: 対話型接地環境下でのVLM性能を評価するために, 4次元スイート(グラウンドリング効率, コンテントアライメント, 語彙適応, ヒューマンライクネス)を導入する。
本スイートは,3つのプロプライエタリなVLM間の対話型レファレンシャルゲームの150のセルフプレイセッションにデプロイし,人間のダイアドと比較する。
3つのモデルは全て、少なくとも3つの指標で人間のパターンから分岐し、GPT4o-miniは全体として最も近い。
- 参考スコア(独自算出の注目度): 29.960223851833785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision language models (VLMs) increasingly claim reasoning skills, yet current benchmarks evaluate them in single-turn or question answering settings. However, grounding is an interactive process in which people gradually develop shared understanding through ongoing communication. We introduce a four-metric suite (grounding efficiency, content alignment, lexical adaptation, and human-likeness) to systematically evaluate VLM performance in interactive grounding contexts. We deploy the suite on 150 self-play sessions of interactive referential games between three proprietary VLMs and compare them with human dyads. All three models diverge from human patterns on at least three metrics, while GPT4o-mini is the closest overall. We find that (i) task success scores do not indicate successful grounding and (ii) high image-utterance alignment does not necessarily predict task success. Our metric suite and findings offer a framework for future research on VLM grounding.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、推論スキルをますます主張するが、現在のベンチマークでは、それらをシングルターンや質問応答の設定で評価している。
しかし、接地は対話的なプロセスであり、人々が現在進行中のコミュニケーションを通じて、共通の理解を徐々に発展させる。
対話型接地環境下でのVLM性能を体系的に評価するために, 4次元スイート(グラウンド化効率, コンテンツアライメント, 語彙適応, ヒューマンライクさ)を導入する。
本スイートは,3つのプロプライエタリなVLM間の対話型レファレンシャルゲームの150のセルフプレイセッションにデプロイし,人間のダイアドと比較する。
3つのモデルは全て、少なくとも3つの指標で人間のパターンから分岐し、GPT4o-miniは全体として最も近い。
私たちはそれを見つける。
(i)タスク成功スコアは、グラウンディングの成功を示すものではなく、
(ii)高精細画像のアライメントは必ずしもタスクの成功を予測しない。
VLM接地に関する今後の研究のためのフレームワークとして,我々の測定スイートと知見を提供する。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions [21.149270997910403]
SoMi-ToMベンチマークは,マルチエージェント複合社会相互作用におけるマルチパースペクティブToMを評価するために設計されている。
我々は,35人の第三者視点映像,633人の一人称視点画像,1225人の専門家による複数選択質問を含む挑戦的なデータセットを構築した。
その結果,SoMi-ToMではLVLMがヒトよりも有意に低下することが判明した。
論文 参考訳(メタデータ) (2025-06-29T00:54:13Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Navigating Rifts in Human-LLM Grounding: Study and Benchmark [30.579037010055092]
我々は、WildChat、MultiWOZ、Bing Chatという3つの人間支援データセットのログを分析した。
ヒトとヒトのLLMグラウンドリングでは有意な差が認められた。
初期のグラウンディングの失敗は、後続の相互作用の破壊を予測する。
論文 参考訳(メタデータ) (2025-03-18T07:24:05Z) - ING-VP: MLLMs cannot Play Easy Vision-based Games Yet [40.851540679589256]
MLLM(Multimodal large language model)は、幅広いタスクにまたがる競争力の向上を示す。
既存のマルチモーダルベンチマークでは、画像内の空間的関係に基づくマルチステップ計画の集中的な評価が不十分である。
Interactive Game-based Vision PlanningベンチマークであるING-VPを提案し,MLLMの空間的想像力と多段階推論能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T05:17:38Z) - MM-R$^3$: On (In-)Consistency of Vision-Language Models (VLMs) [26.475993408532304]
本稿では,3つのタスク(質問文の表現,画像の復元,コンテキスト推論)に基づいて,SoTA視覚言語モデルの性能を解析する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
本稿では,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。