論文の概要: SIU3R: Simultaneous Scene Understanding and 3D Reconstruction Beyond Feature Alignment
- arxiv url: http://arxiv.org/abs/2507.02705v1
- Date: Thu, 03 Jul 2025 15:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.497191
- Title: SIU3R: Simultaneous Scene Understanding and 3D Reconstruction Beyond Feature Alignment
- Title(参考訳): SIU3R:特徴アライメントを超えた同時シーン理解と3D再構成
- Authors: Qi Xu, Dongxu Wei, Lingzhe Zhao, Wenpu Li, Zhangchi Huang, Shunping Ji, Peidong Liu,
- Abstract要約: エンド・ツー・エンドのインボディード・インボディード・システム開発において,同時理解と3次元再構築が重要な役割を担っている。
提案するSIU3Rは,非ポーズ画像からの一般化可能な同時理解と3次元再構成のための,アライメントのない最初のフレームワークである。
- 参考スコア(独自算出の注目度): 11.586275116426442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Simultaneous understanding and 3D reconstruction plays an important role in developing end-to-end embodied intelligent systems. To achieve this, recent approaches resort to 2D-to-3D feature alignment paradigm, which leads to limited 3D understanding capability and potential semantic information loss. In light of this, we propose SIU3R, the first alignment-free framework for generalizable simultaneous understanding and 3D reconstruction from unposed images. Specifically, SIU3R bridges reconstruction and understanding tasks via pixel-aligned 3D representation, and unifies multiple understanding tasks into a set of unified learnable queries, enabling native 3D understanding without the need of alignment with 2D models. To encourage collaboration between the two tasks with shared representation, we further conduct in-depth analyses of their mutual benefits, and propose two lightweight modules to facilitate their interaction. Extensive experiments demonstrate that our method achieves state-of-the-art performance not only on the individual tasks of 3D reconstruction and understanding, but also on the task of simultaneous understanding and 3D reconstruction, highlighting the advantages of our alignment-free framework and the effectiveness of the mutual benefit designs.
- Abstract(参考訳): エンド・ツー・エンドのインボディード・インボディード・システム開発において,同時理解と3次元再構築が重要な役割を担っている。
これを実現するために、近年のアプローチでは、2D-to-3D機能アライメントパラダイムが採用されており、3D理解能力の制限と潜在的な意味情報損失につながっている。
そこで我々はSIU3Rを提案する。SIU3Rは、非提示画像からの一般化可能な同時理解と3次元再構成のための最初のアライメントのないフレームワークである。
具体的には、SIU3Rは、画素アライメントされた3D表現による再構築および理解タスクをブリッジし、複数の理解タスクを統一された学習可能なクエリに統一し、2Dモデルとの整合を必要とせずにネイティブな3D理解を可能にする。
共有表現による2つのタスク間の協調を促進するため,より深い相互利益の分析を行い,相互作用を促進するために2つの軽量モジュールを提案する。
大規模な実験により,本手法は3次元再構築と理解の個々のタスクだけでなく,同時理解と3次元再構築のタスクにも適用でき,アライメントフリーフレームワークの利点と相互利益設計の有効性を浮き彫りにしている。
関連論文リスト
- Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction [4.820576346277399]
クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。
マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。
本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-02T08:29:42Z) - InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior [23.536285325566013]
自然言語命令を補完することは、2Dおよび3Dレイアウト合成システムにとって魅力的な特性である。
既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成物の可制御性合成システムを妨げる。
Instructは、セマンティックグラフとレイアウトデコーダを統合した、新しい生成フレームワークである。
論文 参考訳(メタデータ) (2024-07-10T12:13:39Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - UniT3D: A Unified Transformer for 3D Dense Captioning and Visual
Grounding [41.15622591021133]
3Dの密接なキャプションと視覚的接地を行うには、基礎となるマルチモーダル関係の共通かつ共有的な理解が必要である。
我々は3次元視覚的接地と密接なキャプションを共同で解くためのトランスフォーマーベースアーキテクチャUniT3Dを提案する。
論文 参考訳(メタデータ) (2022-12-01T19:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。