論文の概要: CoRe3D: Collaborative Reasoning as a Foundation for 3D Intelligence
- arxiv url: http://arxiv.org/abs/2512.12768v1
- Date: Sun, 14 Dec 2025 17:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.424727
- Title: CoRe3D: Collaborative Reasoning as a Foundation for 3D Intelligence
- Title(参考訳): CoRe3D:3Dインテリジェンスの基礎としての協調推論
- Authors: Tianjiao Yu, Xinzhuo Li, Yifan Shen, Yuanzhe Liu, Ismini Lourentzou,
- Abstract要約: CoRe3Dは、意味的および空間的抽象化を共同で操作する統合された3D理解および生成推論フレームワークを導入している。
CoRe3Dは、セマンティック・チェーン・オブ・セマンティック・チェーン・推論と構造的空間的推論を密結合することにより、強い局所的な一貫性と言語記述との忠実な整合性を示す3D出力を生成する。
- 参考スコア(独自算出の注目度): 6.2150701899678635
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in large multimodal models suggest that explicit reasoning mechanisms play a critical role in improving model reliability, interpretability, and cross-modal alignment. While such reasoning-centric approaches have been proven effective in language and vision tasks, their extension to 3D remains underdeveloped. CoRe3D introduces a unified 3D understanding and generation reasoning framework that jointly operates over semantic and spatial abstractions, enabling high-level intent inferred from language to directly guide low-level 3D content formation. Central to this design is a spatially grounded reasoning representation that decomposes 3D latent space into localized regions, allowing the model to reason over geometry in a compositional and procedural manner. By tightly coupling semantic chain-of-thought inference with structured spatial reasoning, CoRe3D produces 3D outputs that exhibit strong local consistency and faithful alignment with linguistic descriptions.
- Abstract(参考訳): 大規模マルチモーダルモデルの最近の進歩は、モデル信頼性、解釈可能性、および相互モーダルアライメントを改善する上で、明確な推論機構が重要な役割を果たすことを示唆している。
このような推論中心のアプローチは言語や視覚タスクにおいて有効であることが証明されているが、3Dへの拡張はまだ未開発である。
CoRe3Dは、意味的および空間的抽象化を共同で操作する統合された3D理解および生成推論フレームワークを導入し、言語から推論された高レベルなインテントが、低レベルな3Dコンテンツ形成を直接導くことを可能にする。
この設計の中心は空間的基底を持つ推論表現であり、3次元の潜在空間を局所化領域に分解し、モデルが構成的および手続き的な方法で幾何学上の推論を可能にする。
CoRe3Dは、セマンティック・チェーン・オブ・セマンティック・チェーン・推論と構造的空間的推論を密結合することにより、強い局所的な一貫性と言語記述との忠実な整合性を示す3D出力を生成する。
関連論文リスト
- Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation [23.359745449828363]
本稿では,新しいテキストから3D生成フレームワークであるVLM3Dを提案する。
これは、大きな視覚言語モデルをScore Distillation Samplingパイプラインに統合し、差別化可能なセマンティクスと空間的プリエントとして利用する。
VLM3Dは, 意味的忠実度, 幾何学的コヒーレンス, 空間的正当性において, 従来のSDS法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-19T08:54:52Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning [23.6011224506759]
本稿では3次元空間推論に対処する新しい大規模視覚言語モデル(LVLM)を提案する。
明示的な3D表現は、高度な3D空間推論をサポートするコヒーレントインターフェースを提供する。
その結果,SpatialReasonerは,様々な空間推論ベンチマークの性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-04-28T17:48:43Z) - Spatial Reasoner: A 3D Inference Pipeline for XR Applications [0.0]
本稿では,記号的述語と関係性で幾何学的事実をブリッジする空間的推論フレームワークを提案する。
その基礎は、空間的述語集合によって強化された、向き付けられた3D境界ボックス表現に依存している。
導出した述語は空間知識グラフを形成し、パイプラインベースの推論モデルと組み合わせることで、空間クエリと動的ルール評価を可能にする。
論文 参考訳(メタデータ) (2025-04-25T14:27:27Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。