論文の概要: FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement
- arxiv url: http://arxiv.org/abs/2503.04919v1
- Date: Thu, 06 Mar 2025 19:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:52.057362
- Title: FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement
- Title(参考訳): FirePlace:3Dオブジェクト配置のためのLLMコモンセンス推論の幾何学的リファインメント
- Authors: Ian Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi,
- Abstract要約: MLLM(Multimodal Large Language Models)はセマンティックなタスクに優れるが、3Dシーン生成への応用は3D幾何学の限られた基盤によって妨げられる。
本稿では,(1)3次元の幾何学的推論と関連する幾何学的詳細の抽出に既存のMLLMを適用した新しいフレームワークFirePlaceを紹介し,(2)抽出した低レベル幾何学の幾何学的制約の構築と解決,(3)常識に適合した最終配置のためのプルーニングを紹介する。
- 参考スコア(独自算出の注目度): 42.2054752179292
- License:
- Abstract: Scene generation with 3D assets presents a complex challenge, requiring both high-level semantic understanding and low-level geometric reasoning. While Multimodal Large Language Models (MLLMs) excel at semantic tasks, their application to 3D scene generation is hindered by their limited grounding on 3D geometry. In this paper, we investigate how to best work with MLLMs in an object placement task. Towards this goal, we introduce a novel framework, FirePlace, that applies existing MLLMs in (1) 3D geometric reasoning and the extraction of relevant geometric details from the 3D scene, (2) constructing and solving geometric constraints on the extracted low-level geometry, and (3) pruning for final placements that conform to common sense. By combining geometric reasoning with real-world understanding of MLLMs, our method can propose object placements that satisfy both geometric constraints as well as high-level semantic common-sense considerations. Our experiments show that these capabilities allow our method to place objects more effectively in complex scenes with intricate geometry, surpassing the quality of prior work.
- Abstract(参考訳): 3Dアセットによるシーン生成は、高レベルの意味理解と低レベルの幾何学的推論の両方を必要とする複雑な課題を示す。
MLLM(Multimodal Large Language Models)はセマンティックなタスクに優れていますが、それらの3Dシーン生成への応用は、3D幾何学に基づく限られた基盤によって妨げられています。
本稿では,オブジェクト配置タスクにおいてMLLMを最適に扱う方法について検討する。
本研究の目的は,(1)3次元の幾何学的推論と関連する幾何学的詳細の抽出,(2)抽出した低レベルな幾何学的制約の構築と解決,(3)常識に適合した最終配置のためのプルーニングを行うための新しいフレームワークであるFirePlaceを導入することである。
本手法は,幾何学的推論と実世界のMLLMの理解を組み合わせることで,幾何学的制約と高レベルの意味論的常識的考察の両方を満たすオブジェクト配置を提案できる。
実験により,これらの手法により,複雑な形状の複雑なシーンにオブジェクトをより効果的に配置し,先行作業の質を超越できることが示された。
関連論文リスト
- GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction [14.225228781008209]
本稿では3次元シーン再構成のための新しい幾何学的統合機構を提案する。
提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。
論文 参考訳(メタデータ) (2024-08-28T08:02:47Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Geometric Processing for Image-based 3D Object Modeling [2.6397379133308214]
本稿では,幾何処理の3つの主要構成要素の最先端手法について紹介する:(1)ジオレファレンス; 2)画像密度マッチング3)テクスチャマッピング。
3Dオブジェクト再構成ワークフローにおける画像の大部分が自動化された幾何処理は、現実的な3Dモデリングの重要な部分となっている。
論文 参考訳(メタデータ) (2021-06-27T18:33:30Z) - Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from
a Single RGB Image [102.44347847154867]
プリミティブの集合として3次元オブジェクトの幾何を共同で復元できる新しい定式化を提案する。
我々のモデルは、プリミティブのバイナリツリーの形で、様々なオブジェクトの高レベルな構造的分解を復元する。
ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考慮すれば3次元形状の推論が容易になることが示された。
論文 参考訳(メタデータ) (2020-04-02T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。