論文の概要: SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes
- arxiv url: http://arxiv.org/abs/2510.16714v2
- Date: Tue, 21 Oct 2025 07:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.846575
- Title: SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes
- Title(参考訳): SceneCOT:3Dシーンでグラウンドド・オブ・サート・リソンを回避
- Authors: Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu, Baoxiong Jia, Siyuan Huang,
- Abstract要約: 本稿では,3次元シーンにおけるグラウンドド質問応答のための新しい枠組みを提示することによって,そのギャップを埋める。
まず,3次元シーン(SCENECOT)において,複雑な推論タスクをシンプルかつ管理可能な問題に分解する。
私たちの知る限りでは、これはCoT推論の3Dシーン理解への最初の成功例であり、ステップバイステップのヒューマンライクな推論を可能にします。
- 参考スコア(独自算出の注目度): 26.897741358707396
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing research on 3D Large Language Models (LLMs) still struggles to achieve grounded question-answering, primarily due to the under-exploration of the mech- anism of human-like scene-object grounded reasoning. This paper bridges the gap by presenting a novel framework. We first introduce a grounded Chain-of- Thought reasoning method in 3D scenes (SCENECOT), decoupling a complex reasoning task into simpler and manageable problems, and building corresponding visual clues based on multimodal expert modules. To enable such a method, we develop SCENECOT-185K, the first large-scale grounded CoT reasoning dataset, consisting of 185K high-quality instances. Extensive experiments across various complex 3D scene reasoning benchmarks demonstrate that our new framework achieves strong performance with high grounding-QA coherence. To the best of our knowledge, this is the first successful application of CoT reasoning to 3D scene understanding, enabling step-by-step human-like reasoning and showing potential for extension to broader 3D scene understanding scenarios.
- Abstract(参考訳): 既存の3次元大規模言語モデル(LLMs)の研究は、主に人間のようなシーン対象の背景推論のメカ・アニミズムの探索が不十分なため、根拠付き質問応答の達成に苦慮している。
本稿では,新しい枠組みを提示することによってギャップを埋める。
まず,3次元シーンにおいて,複雑な推論タスクをシンプルかつ管理可能な問題に分解し,マルチモーダル・エキスパート・モジュールをベースとした視覚的手がかりを構築する。
SCENECOT-185Kは185Kの高品質なインスタンスからなる最初の大規模基底CoT推論データセットである。
様々な複雑な3Dシーン推論ベンチマークによる大規模な実験により、我々の新しいフレームワークは、高基底QAコヒーレンスで高い性能を達成することを示した。
私たちの知る限りでは、これはCoT推論の3Dシーン理解への最初の成功例であり、ステップバイステップのヒューマンライクな推論を可能にし、より広い3Dシーン理解シナリオの拡張の可能性を示している。
関連論文リスト
- PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning [82.55361351483005]
我々は,3次元データに対する明示的なチェーン・オブ・ソート(CoT)推論でMLLMを強化する新しいフレームワークであるPointCoTを提案する。
両ストリームのマルチモーダルアーキテクチャを活用することで,幾何学的真理とセマンティックな外観を相乗化することができる。
論文 参考訳(メタデータ) (2026-02-27T11:47:45Z) - AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models [20.05010202296243]
エージェントが3Dシーンの各参照余剰要素、その位置、動きタイプ、動き軸について予測する必要がある。
本稿では,MLLM(Multimodal Large Language Models)とCoT(Chere-of-Thought)推論パラダイムを統合した新しいフレームワークであるAffordBotを提案する。
AffordBotは最先端のパフォーマンスを実現し、3Dポイントのクラウド入力とMLLMだけで強力な一般化と物理的根拠を持つ推論を実証する。
論文 参考訳(メタデータ) (2025-11-13T06:43:00Z) - Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views [41.05815610513033]
3DThinkerは、画像に埋め込まれたリッチな幾何学的情報を、人間のように推論しながら活用するフレームワークだ。
私たちのフレームワークは,3D事前入力を使わずに推論中に初めて3Dのメンタリングを可能にするもので,トレーニングのために明示的にラベル付けされた3Dデータに頼らない。
論文 参考訳(メタデータ) (2025-10-21T13:36:58Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities [23.18281583681258]
我々は3D推論基底と呼ばれる新しいタスクを提案し、新しいベンチマークScanReasonを導入する。
ScanReasonは、推論とグラウンドの相乗化を必要とする5つの推論タイプから10万以上の質問と回答のペアを提供する。
提案手法は, 推論において, 分岐推論と接地ステップにより, さらなる性能向上を図っている。
論文 参考訳(メタデータ) (2024-07-01T17:59:35Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。