論文の概要: MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue
- arxiv url: http://arxiv.org/abs/2605.21796v1
- Date: Wed, 20 May 2026 22:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.015402
- Title: MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue
- Title(参考訳): MM-Conv:3次元対話における文脈認識基盤のためのマルチモーダルデータセットとベンチマーク
- Authors: Anna Deichler, Jim O'Regan, Fethiye Irmak Dogan, Lubos Marcinek, Anna Klezovich, Iolanda Leite, Jonas Beskow,
- Abstract要約: 物理世界での接地言語は、会話中に動的に現れる参照を解釈するためにAIシステムを必要とする。
我々は,音声,動き,視線,3Dシーン幾何学によるエゴセントリックVRインタラクションの6.7時間から構築された動的3D環境における参照通信のベンチマークを紹介する。
我々の文脈書き換え手法は、書き換え後のプロノミナルで56.7%に達する純粋な検出器(GroundingDINO)により、平均で11~22ポイントの接地性能を向上させる。
- 参考スコア(独自算出の注目度): 6.616838081440907
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grounding language in the physical world requires AI systems to interpret references that emerge dynamically during conversation. While current vision-language models (VLMs) excel at static image tasks, they struggle to resolve ambiguous expressions in spontaneous, multi-turn dialogue. We address this gap by introducing (1) a benchmark for referential communication in dynamic 3D environments, built from 6.7 hours of egocentric VR interaction with synchronized speech, motion, gaze, and 3D scene geometry, and (2) a two-stage grounding pipeline that explicitly resolves conversational ambiguity before visual localization. The benchmark includes over 4,200 manually verified referring expressions spanning full, partitive, and pronominal types. Our contextual rewriting approach improves grounding performance by 11-22 percentage points on average, with a pure detector (GroundingDINO) reaching 56.7% on pronominals after rewriting, nearly double the best end-to-end baseline. Results demonstrate that decoupling linguistic reasoning from visual perception is more effective than end-to-end approaches for conversational grounding.
- Abstract(参考訳): 物理世界での接地言語は、会話中に動的に現れる参照を解釈するためにAIシステムを必要とする。
現在の視覚言語モデル(VLM)は静的なイメージタスクに優れていますが、自発的なマルチターン対話において曖昧な表現を解決するのに苦労しています。
このギャップを解消するために,(1) 動的3次元環境における参照コミュニケーションのベンチマーク,(2) 視覚的位置づけの前に会話のあいまいさを明確に解決する2段階の接地パイプラインを導入する。
ベンチマークには、フル、パーティティヴ、およびプロノミナルなタイプにまたがる4,200以上の手作業による参照式が含まれている。
我々の文脈書き換えアプローチは、平均で11-22ポイントのグラウンド化性能を向上し、純粋な検出器(GroundingDINO)は、書き換え後のプロノミナルで56.7%に達し、最高のエンドツーエンドベースラインをほぼ2倍に向上した。
その結果,言語的推論と視覚的認識の分離は,対話的接地のためのエンドツーエンドアプローチよりも効果的であることが示された。
関連論文リスト
- PanopticQuery: Unified Query-Time Reasoning for 4D Scenes [53.672906752290665]
4Dシーンでクエリ時間推論を統一するフレームワークであるPanopticQueryを紹介した。
提案手法は高忠実度動的再構成のための4次元ガウススプラッティングに基づいている。
動的シーンにおける言語ベースのクエリのための新しいベンチマークであるPanoptic-L4Dを提案する。
論文 参考訳(メタデータ) (2026-04-07T09:40:05Z) - Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World [49.80040477190479]
人間は物理的4Dの世界に住み、幾何学的構造と意味的内容は時間とともに進化する。
さまざまな実世界および合成ビデオデータセットから構築された大規模ベンチマークであるDyn-Benchを紹介した。
既存のモデルでは,時間的推論と動的オブジェクトグラウンドの両面において,高い性能を同時に維持できないことがわかった。
論文 参考訳(メタデータ) (2026-03-13T07:42:16Z) - SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens [89.05195827071582]
SceMoSはシーン対応モーション合成フレームワークである。
軽量な2Dキューを使用して、グローバルプランニングをローカル実行から切り離す。
SceMoSはTRUMANSベンチマークで最先端のモーションリアリズムと接触精度を達成する。
論文 参考訳(メタデータ) (2026-02-24T02:09:12Z) - TrackTeller: Temporal Multimodal 3D Grounding for Behavior-Dependent Object References [33.32268865872059]
時間的言語に基づく3Dグラウンド化について検討し,その目的は,多フレーム観測を利用して,現在のフレーム内の参照対象を特定することである。
本稿では,LDAR-image fusion,言語条件付きデコード,時間的推論を統合アーキテクチャで統合した時間的マルチモーダルグラウンドディングフレームワークであるTrackTellerを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:02:56Z) - Visual Grounding from Event Cameras [26.670030443187482]
Talk2Eventは、イベントデータを使用した言語駆動のオブジェクトグラウンドのための最初の大規模ベンチマークである。
Talk2Eventは5,567のシーン、13,458の注釈付きオブジェクト、30,000以上の慎重に検証された参照式で構成されている。
我々はTalk2Eventを,ロボット工学や人間とAIのインタラクションといった分野にまたがる,マルチモーダルおよび時間的認識の促進の基盤として想定している。
論文 参考訳(メタデータ) (2025-09-11T16:21:59Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding [44.81427860963744]
この分野での基本課題はエゴ中心の3次元視覚グラウンド(英語版)であり、エージェントは言葉による記述に基づいて現実世界の3次元空間内の対象物を特定する。
視覚的意味論とテキスト的意味論を両立させる新しいアプローチであるDenseGroundingを提案する。
視覚的特徴として,細粒度のグローバルなシーンの特徴を捉えることで,密接なセマンティックなセマンティックなセマンティック・エンハンサーを導入する。
テキスト記述のための言語セマンティックエンハンサー(Language Semantic Enhancer)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:49:06Z) - IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes [10.139461308573336]
IRef-VLAは、11.5K以上のスキャンされた3D部屋からなる参照グラウンドタスクのための、世界で最大のデータセットである。
我々は,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3Dシーン理解のためのリソースの提供を目指している。
論文 参考訳(メタデータ) (2025-03-20T16:16:10Z) - Grounding Language in Multi-Perspective Referential Communication [16.421832484760987]
マルチエージェント環境における表現生成と理解のためのタスクとデータセットを提案する。
我々は2,970人の人間が書いた参照表現のデータセットを収集し、それぞれが人間の理解的判断と組み合わせる。
自動モデルの性能を人間のパートナーとペアリングした話者とリスナーとして評価し,人間のエージェントのペアよりも遅れた参照生成と理解の遅延の両方におけるモデル性能を確認した。
論文 参考訳(メタデータ) (2024-10-04T22:42:30Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。