論文の概要: Situat3DChange: Situated 3D Change Understanding Dataset for Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2510.11509v1
- Date: Mon, 13 Oct 2025 15:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.426956
- Title: Situat3DChange: Situated 3D Change Understanding Dataset for Multimodal Large Language Model
- Title(参考訳): Situat3DChange:マルチモーダル大言語モデルのための3次元変化理解データセット
- Authors: Ruiping Liu, Junwei Zheng, Yufan Chen, Zirui Wang, Kunyu Peng, Kailun Yang, Jiaming Zhang, Marc Pollefeys, Rainer Stiefelhagen,
- Abstract要約: Situat3DChangeは、状況に応じた3つの変更理解タスクをサポートする広範なデータセットである。
我々は、環境変化の1万1千人の人間の観察を利用して、共有精神モデルを確立する。
我々はSCReasonerを提案し、同じシーンから一対の点雲と小さな変化を比較するという課題に対処する。
- 参考スコア(独自算出の注目度): 89.94499334837762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physical environments and circumstances are fundamentally dynamic, yet current 3D datasets and evaluation benchmarks tend to concentrate on either dynamic scenarios or dynamic situations in isolation, resulting in incomplete comprehension. To overcome these constraints, we introduce Situat3DChange, an extensive dataset supporting three situation-aware change understanding tasks following the perception-action model: 121K question-answer pairs, 36K change descriptions for perception tasks, and 17K rearrangement instructions for the action task. To construct this large-scale dataset, Situat3DChange leverages 11K human observations of environmental changes to establish shared mental models and shared situational awareness for human-AI collaboration. These observations, enriched with egocentric and allocentric perspectives as well as categorical and coordinate spatial relations, are integrated using an LLM to support understanding of situated changes. To address the challenge of comparing pairs of point clouds from the same scene with minor changes, we propose SCReasoner, an efficient 3D MLLM approach that enables effective point cloud comparison with minimal parameter overhead and no additional tokens required for the language decoder. Comprehensive evaluation on Situat3DChange tasks highlights both the progress and limitations of MLLMs in dynamic scene and situation understanding. Additional experiments on data scaling and cross-domain transfer demonstrate the task-agnostic effectiveness of using Situat3DChange as a training dataset for MLLMs.
- Abstract(参考訳): 物理的環境と状況は基本的に動的であるが、現在の3Dデータセットと評価ベンチマークは、分離された動的シナリオまたは動的状況のいずれかに集中する傾向にあり、不完全な理解をもたらす。
これらの制約を克服するために、Situat3DChangeという3つの状況認識変化理解タスクをサポートする広範囲なデータセットを紹介した。
この大規模なデータセットを構築するために、Situat3DChangeは1万1千人の人間による環境変化の観察を活用し、共有されたメンタルモデルを確立し、人間とAIのコラボレーションのための状況認識を共有する。
これらの観測は、自己中心的・同心的な視点と、カテゴリー的・協調的な空間関係に富んだものであり、位置変化の理解を支援するためにLLMを用いて統合されている。
そこで我々はSCReasonerを提案する。SCReasonerは効率的な3D MLLMアプローチで,パラメータのオーバーヘッドを最小限に抑え,言語デコーダに必要な追加トークンを不要にすることで,効率的なポイントクラウド比較を可能にする。
Situat3DChangeタスクの総合評価は、動的シーンにおけるMLLMの進行と限界と状況理解の両方を強調している。
データスケーリングとクロスドメイン転送に関するさらなる実験は、MLLMのトレーニングデータセットとしてSituat3DChangeを使用することによるタスク非依存の有効性を示している。
関連論文リスト
- EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。
本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。
本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文 参考訳(メタデータ) (2025-03-29T09:34:16Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D Environments [20.890476387720483]
MoREは進化する環境における多目的再局在と再構成のための新しいアプローチである。
これらの環境を「生きたシーン」とみなし、異なる時点のスキャンをオブジェクトインスタンスの3次元再構成に変換する問題について考察する。
論文 参考訳(メタデータ) (2023-12-14T17:09:57Z) - Improving the Robustness to Variations of Objects and Instructions with
a Neuro-Symbolic Approach for Interactive Instruction Following [23.197640949226756]
自然言語命令と1対1の視覚を行動列にマッピングする学習のためのベンチマークとして,対話型命令追従タスクが提案されている。
このタスクのための既存のエンドツーエンドニューラルネットワークは、オブジェクトや言語命令のバリエーションに対して堅牢ではないことが分かりました。
本稿では,入力の小さな変化に対して頑健な高レベルなシンボル表現に対する推論を行うニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-13T21:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。