論文の概要: Error-Driven Scene Editing for 3D Grounding in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.14086v1
- Date: Tue, 18 Nov 2025 03:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.901812
- Title: Error-Driven Scene Editing for 3D Grounding in Large Language Models
- Title(参考訳): 大規模言語モデルにおける3次元グラウンドのための誤り駆動シーン編集
- Authors: Yue Zhang, Zun Wang, Han Lin, Jialu Li, Jianing Yang, Yonatan Bitton, Idan Szpektor, Mohit Bansal,
- Abstract要約: 近年の3D-LLMの進歩にもかかわらず、3D環境における視覚的および空間的要素に正確に接地する言語に限られている。
この制限は、3Dリソースの不足による空間的理解よりも、言語推論に焦点を当てたトレーニングデータに起因している。
本稿では,これらのバイアスを緩和する正確な視覚的カウンターファクトを生成するための重要なメカニズムとして,3Dシーン編集を提案する。
- 参考スコア(独自算出の注目度): 71.41120775319088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in 3D-LLMs, they remain limited in accurately grounding language to visual and spatial elements in 3D environments. This limitation stems in part from training data that focuses on language reasoning rather than spatial understanding due to scarce 3D resources, leaving inherent grounding biases unresolved. To address this, we propose 3D scene editing as a key mechanism to generate precise visual counterfactuals that mitigate these biases through fine-grained spatial manipulation, without requiring costly scene reconstruction or large-scale 3D data collection. Furthermore, to make these edits targeted and directly address the specific weaknesses of the model, we introduce DEER-3D, an error-driven framework following a structured "Decompose, Diagnostic Evaluation, Edit, and Re-train" workflow, rather than broadly or randomly augmenting data as in conventional approaches. Specifically, upon identifying a grounding failure of the 3D-LLM, our framework first diagnoses the exact predicate-level error (e.g., attribute or spatial relation). It then executes minimal, predicate-aligned 3D scene edits, such as recoloring or repositioning, to produce targeted counterfactual supervision for iterative model fine-tuning, significantly enhancing grounding accuracy. We evaluate our editing pipeline across multiple benchmarks for 3D grounding and scene understanding tasks, consistently demonstrating improvements across all evaluated datasets through iterative refinement. DEER-3D underscores the effectiveness of targeted, error-driven scene editing in bridging linguistic reasoning capabilities with spatial grounding in 3D LLMs.
- Abstract(参考訳): 近年の3D-LLMの進歩にもかかわらず、3D環境における視覚的および空間的要素に正確に接地する言語に限られている。
この制限は、3Dリソースの不足による空間的理解よりも、言語推論に焦点を当てたトレーニングデータに起因しており、固有の基底バイアスは未解決のままである。
そこで本研究では,3次元シーン編集を重要なメカニズムとして提案し,これらのバイアスを細かな空間的操作によって軽減し,コストのかかるシーン再構成や大規模3次元データ収集を必要とせず,正確な視覚的反事実を生成する。
さらに、これらの編集を対象とし、モデルの特定の弱点に直接対処するために、従来の手法のように広範囲またはランダムにデータを増大させるのではなく、構造化された「分解、診断、編集、再訓練」ワークフローに従うエラー駆動フレームワークであるDEER-3Dを導入する。
具体的には、3D-LLMの基底的故障を識別する際、まず正確な述語レベルの誤差(例えば属性や空間的関係)を診断する。
次に、リカラー化や再配置など、最小限の述語対応の3Dシーン編集を実行し、反復モデルの微調整をターゲットとした対物監視を生成し、グラウンドニング精度を大幅に向上させる。
我々は3Dグラウンドとシーン理解タスクのための複数のベンチマークにまたがる編集パイプラインを評価し、反復的な改善を通じて、評価されたすべてのデータセットの改善を一貫して示す。
DEER-3Dは、3次元LLMにおける空間的接地を伴うブリッジング言語推論能力におけるターゲット・エラー駆動シーン編集の有効性を裏付ける。
関連論文リスト
- 3DSceneEditor: Controllable 3D Scene Editing with Gaussian Splatting [31.98493679748211]
ガウススプラッティングを用いた3次元シーンのリアルタイムかつ高精度な編集を行う3DceneEditorを提案する。
従来の方法とは異なり、3DSceneEditorは3Dパイプラインを通して動作し、効率よく高品質な編集のためにガウシアンを直接操作できる。
論文 参考訳(メタデータ) (2024-12-02T15:03:55Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space [10.49905491984899]
問題を再定義し、3次元のボリュームを分割し、以下の方法を提案する。
従来の2Dピクセルの監督を代行する手法とは異なり、言語埋め込みフィールドをトレーニングするための3Dポイントを直接監督する。
学習した言語フィールドを3DGSに転送し、トレーニング時間や精度を犠牲にすることなく、最初のリアルタイムレンダリング速度を達成する。
論文 参考訳(メタデータ) (2024-08-14T09:50:02Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding [23.885017062031217]
3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。
既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。
本稿では,まずアンカーの連鎖と最終目標を予測し,シークエンス・ツー・シーケンスのSeq2Seqタスクとして3次元視覚接地問題を定式化する。
論文 参考訳(メタデータ) (2023-10-10T00:07:25Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。