Fugu-MT 論文翻訳(概要): Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

論文の概要: Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

arxiv url: http://arxiv.org/abs/2603.27183v1
Date: Sat, 28 Mar 2026 08:01:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.832722
Title: Communicating about Space: Language-Mediated Spatial Integration Across Partial Views
Title（参考訳）: 空間のコミュニケート:部分的視点における言語による空間統合
Authors: Ankur Sikarwar, Debangan Mishra, Sudarshan Nikhil, Ponnurangam Kumaraguru, Aishwarya Agrawal,
Abstract要約: マルチモーダル大言語モデル(MLLM)は,対話を通して異なる自我中心の視点を一致させて,共有環境のコヒーレントな精神モデルを形成することができるかを検討する。この設定では、2つの静的MLLMエージェントが異なる視点から3次元屋内環境を観察し、空間的クエリを解決するために自然言語メッセージを交換する。 MLLMはビューをまたいだ共有アンカーオブジェクトの識別、リレーショナル推論の悪化、グローバルに一貫したマップの構築にはほとんど失敗する。
参考スコア（独自算出の注目度）: 15.130383134277166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans build shared spatial understanding by communicating partial, viewpoint-dependent observations. We ask whether Multimodal Large Language Models (MLLMs) can do the same, aligning distinct egocentric views through dialogue to form a coherent, allocentric mental model of a shared environment. To study this systematically, we introduce COSMIC, a benchmark for Collaborative Spatial Communication. In this setting, two static MLLM agents observe a 3D indoor environment from different viewpoints and exchange natural-language messages to solve spatial queries. COSMIC contains 899 diverse scenes and 1250 question-answer pairs spanning five tasks. We find a consistent capability hierarchy, MLLMs are most reliable at identifying shared anchor objects across views, perform worse on relational reasoning, and largely fail at building globally consistent maps, performing near chance, even for the frontier models. Moreover, we find thinking capability yields consistent gains in anchor grounding, but is insufficient for higher-level spatial communication. To contextualize model behavior, we additionally collect 250 human-human dialogues. Humans achieve 95% aggregate accuracy, leaving significant room for improvement for even the best performing model Gemini-3-Pro-Thinking which achieves 72% aggregate accuracy. Moreover, human conversations become increasingly specific as partners converge on a shared mental model, whereas model dialogues continue to explore new possibilities rather than converging, consistent with a limited ability to build and maintain a robust shared mental model. Our code and data is available at https://github.com/ankursikarwar/Cosmic
Abstract（参考訳）: 人間は、部分的、視点に依存した観察を伝達することで、共有された空間的理解を構築する。マルチモーダル大言語モデル(MLLM)が、対話を通して異なる自我中心の視点を整合させて、共有環境の一貫性のある、同心的な精神モデルを形成することができるかどうかを問う。これを体系的に研究するために,協調空間コミュニケーションのベンチマークであるCOSMICを紹介する。この設定では、2つの静的MLLMエージェントが異なる視点から3次元屋内環境を観察し、空間的クエリを解決するために自然言語メッセージを交換する。 COSMICは899の多様なシーンと5つのタスクにまたがる1250の質問応答ペアを含んでいる。 MLLMはビューをまたいで共有アンカーオブジェクトを識別し、リレーショナル推論を悪化させ、グローバルに一貫したマップの構築に失敗し、フロンティアモデルでもほぼ確実に機能する。さらに, アンカーグラウンドにおいて, 思考能力は一貫した利得が得られるが, 高レベル空間通信には不十分である。モデル行動の文脈化には,250人の人間と人間の対話も収集する。人間は95%のアグリゲーション精度を達成し、最高のパフォーマンスモデルであるGemini-3-Pro-Thinkingでも改善の余地を残し、72%のアグリゲーション精度を達成する。さらに、パートナーが共有されたメンタルモデルに収束するにつれて、人間の会話が具体化していく一方、モデル対話は統合よりも新たな可能性を探り続け、堅牢な共有メンタルモデルを構築し維持する能力に制限がある。私たちのコードとデータはhttps://github.com/ankursikarwar/Cosmicで公開されています。

関連論文リスト

MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games [70.37904949359938]
我々は,プライベート情報に関する効果的なコミュニケーションを必要とする協調ゲーム群を用いて,マルチターンインタラクションにおける言語モデルの評価を行った。言語モデルでは,非対話的なベースラインシナリオを改善するために,対話的なコラボレーションを利用できないことがわかった。我々は,これらの対話の言語的特徴を分析し,サイコフナンシー,情報密度,談話コヒーレンスの役割を評価する。
論文参考訳（メタデータ） (2026-02-27T17:13:20Z)
Learning Situated Awareness in the Real World [63.75211123289058]
SAW-Benchは、実世界のビデオを用いて自我中心的な位置認識を評価するための新しいベンチマークである。 6つの異なる認識タスクでモデルのオブザーバ中心の理解を探索する。我々の総合評価では、最高のMFMであるGemini 3 Flashでさえ、人間モデルのパフォーマンスギャップは37.66%である。
論文参考訳（メタデータ） (2026-02-18T18:22:52Z)
SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions [36.010107260144586]
SoMi-ToMベンチマークは,マルチエージェント複合社会相互作用におけるマルチパースペクティブToMを評価するために設計されている。我々は,35人の第三者視点映像,633人の一人称視点画像,1225人の専門家による複数選択質問を含む挑戦的なデータセットを構築した。その結果,SoMi-ToMではLVLMがヒトよりも有意に低下することが判明した。
論文参考訳（メタデータ） (2025-06-29T00:54:13Z)
Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。 MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文参考訳（メタデータ） (2025-06-26T16:38:19Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。 MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文参考訳（メタデータ） (2024-12-18T18:59:54Z)
Grounding Language in Multi-Perspective Referential Communication [16.421832484760987]
マルチエージェント環境における表現生成と理解のためのタスクとデータセットを提案する。我々は2,970人の人間が書いた参照表現のデータセットを収集し、それぞれが人間の理解的判断と組み合わせる。自動モデルの性能を人間のパートナーとペアリングした話者とリスナーとして評価し,人間のエージェントのペアよりも遅れた参照生成と理解の遅延の両方におけるモデル性能を確認した。
論文参考訳（メタデータ） (2024-10-04T22:42:30Z)
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文参考訳（メタデータ） (2024-08-01T17:57:12Z)
ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文参考訳（メタデータ） (2024-01-24T09:02:00Z)
Things not Written in Text: Exploring Spatial Commonsense from Visual Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文参考訳（メタデータ） (2022-03-15T17:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。