論文の概要: REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2510.16410v1
- Date: Sat, 18 Oct 2025 08:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.98479
- Title: REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting
- Title(参考訳): REALM: オープンワールド3D推論セグメンテーションとガウス版編集のためのMLLM-Agentフレームワーク
- Authors: Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu,
- Abstract要約: 既存の3Dセグメンテーション手法は、しばしば曖昧で推論に基づく指示を解釈するのに苦労する。
本稿では,オープンワールド推論に基づくセグメンテーションを実現する,革新的なMLLMエージェントフレームワークであるREALMを紹介する。
我々のフレームワークは、オブジェクトの削除、置換、スタイル転送など、様々な3Dインタラクションタスクをシームレスにサポートしています。
- 参考スコア(独自算出の注目度): 16.896443736904356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bridging the gap between complex human instructions and precise 3D object grounding remains a significant challenge in vision and robotics. Existing 3D segmentation methods often struggle to interpret ambiguous, reasoning-based instructions, while 2D vision-language models that excel at such reasoning lack intrinsic 3D spatial understanding. In this paper, we introduce REALM, an innovative MLLM-agent framework that enables open-world reasoning-based segmentation without requiring extensive 3D-specific post-training. We perform segmentation directly on 3D Gaussian Splatting representations, capitalizing on their ability to render photorealistic novel views that are highly suitable for MLLM comprehension. As directly feeding one or more rendered views to the MLLM can lead to high sensitivity to viewpoint selection, we propose a novel Global-to-Local Spatial Grounding strategy. Specifically, multiple global views are first fed into the MLLM agent in parallel for coarse-level localization, aggregating responses to robustly identify the target object. Then, several close-up novel views of the object are synthesized to perform fine-grained local segmentation, yielding accurate and consistent 3D masks. Extensive experiments show that REALM achieves remarkable performance in interpreting both explicit and implicit instructions across LERF, 3D-OVS, and our newly introduced REALM3D benchmarks. Furthermore, our agent framework seamlessly supports a range of 3D interaction tasks, including object removal, replacement, and style transfer, demonstrating its practical utility and versatility. Project page: https://ChangyueShi.github.io/REALM.
- Abstract(参考訳): 複雑な人間の指示と正確な3Dオブジェクトグラウンドのギャップを埋めることは、視覚とロボット工学において重要な課題である。
既存の3Dセグメンテーション法は、しばしば曖昧で推論に基づく指示を解釈するのに苦労するが、そのような推論で優れた2D視覚言語モデルは、固有の3D空間理解を欠いている。
本稿では,オープンワールドの推論に基づくセグメンテーションを実現するための革新的なMLLMエージェントフレームワークであるREALMを紹介する。
我々は,MLLMの理解に非常に適したフォトリアリスティックなノベルビューを描画する能力を活かして,3次元ガウススプラッティング表現を直接的にセグメンテーションを行う。
MLLMに1つ以上のレンダリングされたビューを直接供給することにより、視点選択に高い感度をもたらすことができるので、我々は、新しいグローバル・ローカル空間接地戦略を提案する。
具体的には、複数のグローバルビューをMLLMエージェントに並列に入力し、粗いレベルのローカライゼーションを行い、応答を集約してターゲットオブジェクトを堅牢に識別する。
そして、オブジェクトのいくつかのクローズアップな新しいビューを合成し、きめ細かい局所的なセグメンテーションを行い、正確で一貫した3Dマスクを生成する。
拡張実験により,REALMはLERF,3D-OVS,および新たに導入されたREALM3Dベンチマークにおいて,明示的命令と暗黙的命令の両方を解釈する際,顕著な性能を示した。
さらに,エージェントフレームワークはオブジェクトの削除,置換,スタイル転送など,さまざまな3Dインタラクションタスクをシームレスにサポートし,実用性と汎用性を示す。
プロジェクトページ: https://ChangyueShi.github.io/REALM。
関連論文リスト
- Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - MLLMs Need 3D-Aware Representation Supervision for Scene Understanding [14.083262551714133]
3DRSは、事前訓練された3D基礎モデルから監督を導入することでMLLM 3D表現学習を強化するフレームワークである。
本手法は3次元モデルから抽出したリッチな3次元知識とMLLMの視覚的特徴を一致させ,シーン理解を効果的に改善する。
論文 参考訳(メタデータ) (2025-06-02T17:58:24Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - 3D Spatial Understanding in MLLMs: Disambiguation and Evaluation [13.614206918726314]
本研究では,対象対象物体の局所化・曖昧化能力を高める手法を提案する。
提案手法は,文の類似性を評価する従来の指標に対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-09T16:04:32Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。