論文の概要: DeepThink3D: Enhancing Large Language Models with Programmatic Reasoning in Complex 3D Situated Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2508.15548v1
- Date: Thu, 21 Aug 2025 13:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.344949
- Title: DeepThink3D: Enhancing Large Language Models with Programmatic Reasoning in Complex 3D Situated Reasoning Tasks
- Title(参考訳): DeepThink3D:複雑な3次元推論タスクにおけるプログラム推論による大規模言語モデルの強化
- Authors: Jiayi Song, Rui Wan, Lipeng Ma, Weidong Yang, Qingyuan Zhou, Yixuan Li, Ben Fei,
- Abstract要約: 最近の研究は、大規模な言語モデルを通してツールの使用を促すことで、3D位置推論タスクに対処している。
本稿では,複雑な3次元位置推論タスクにおけるLLMのツール使用量を高めるためにDeepThink3Dを導入する。
- 参考スコア(独自算出の注目度): 16.973343902054257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work enhances the ability of large language models (LLMs) to perform complex reasoning in 3D scenes. Recent work has addressed the 3D situated reasoning task by invoking tool usage through large language models. Large language models call tools via APIs and integrate the generated programs through a chain of thought to solve problems based on the program results. However, due to the simplicity of the questions in the dataset, the generated program reasoning chains are relatively short. To solve this main challenge, in this paper, we introduce DeepThink3D to enhance the tool usage of LLMs in complex 3D situated reasoning tasks. Our work proposes a combinatorial and iterative evolutionary approach on the SQA3D benchmark to generate more complex questions. Building on this foundation, we fine-tune the large language model to make it more proficient in using 3D tools. By employing Direct Preference Optimization (DPO), we directly optimize the toolchain strategies generated by models, thereby enhancing their accuracy in complex tasks.
- Abstract(参考訳): この研究は、大規模言語モデル(LLM)が3Dシーンで複雑な推論を行う能力を高める。
最近の研究は、大規模言語モデルを通してツールの使用を促すことで、3D位置推論タスクに対処している。
大規模言語モデルは、APIを介してツールを呼び出し、プログラム結果に基づいて問題を解決するための一連の思考を通して生成されたプログラムを統合する。
しかしながら、データセット内の質問の単純さのため、生成されたプログラム推論チェーンは比較的短い。
本稿では,この課題を解決するために,複雑な3D位置推論タスクにおけるLLMのツール使用量を高めるためにDeepThink3Dを提案する。
本研究では,より複雑な問題を生成するために,SQA3Dベンチマークの組合せ的かつ反復的な進化的アプローチを提案する。
この基盤の上に構築することで、大きな言語モデルを微調整して、3Dツールの使用をより有能なものにします。
DPO(Direct Preference Optimization)を用いることで、モデルが生成するツールチェーン戦略を直接最適化し、複雑なタスクにおけるそれらの精度を向上させる。
関連論文リスト
- SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models [9.279591094901152]
SORT3Dは2Dデータからリッチなオブジェクト属性を利用して、大規模言語モデル(LLM)とAsベースの空間推論ツールボックスをマージし、シーケンシャルな推論を行う。
2つのベンチマークにおいて、複雑なビュー依存グラウンド処理におけるSORT3Dのゼロショット性能を示す。
また、このパイプラインを実装して、2台の自動運転車でリアルタイムに実行し、我々のアプローチが、これまで見つからなかった現実世界の環境におけるオブジェクトゴールナビゲーションに利用できることを実証しています。
論文 参考訳(メタデータ) (2025-04-25T20:24:11Z) - Visual Agentic AI for Spatial Reasoning with a Dynamic API [26.759236329608935]
本稿では,3次元空間推論問題を解くためのエージェントプログラム合成手法を提案する。
我々の手法は、静的なヒューマン定義APIに依存する従来のアプローチの限界を克服する。
本手法は3次元の視覚的推論において,従来のゼロショットモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:35Z) - Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - Think-Program-reCtify: 3D Situated Reasoning with Large Language Models [68.52240087262825]
本研究は,3次元環境における自我中心の観察から得られる質問に答えることを目的とした3次元位置推論課題に対処する。
我々は,ThinkProgram-reCtifyループを通じて,大規模言語モデル(LLM)の計画,ツール使用,リフレクション機能を活用する新しいフレームワークを提案する。
SQA3Dベンチマークの実験と解析により,本手法の有効性,解釈可能性,ロバスト性を実証した。
論文 参考訳(メタデータ) (2024-04-23T03:22:06Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。