論文の概要: AREA3D: Active Reconstruction Agent with Unified Feed-Forward 3D Perception and Vision-Language Guidance
- arxiv url: http://arxiv.org/abs/2512.05131v1
- Date: Fri, 28 Nov 2025 06:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.743888
- Title: AREA3D: Active Reconstruction Agent with Unified Feed-Forward 3D Perception and Vision-Language Guidance
- Title(参考訳): AREA3D: 統合フィードフォワード3次元知覚とビジョンランゲージ誘導を用いたアクティブリコンストラクションエージェント
- Authors: Tianling Xu, Shengzhe Gan, Leslie Gu, Yuelei Li, Fangneng Zhan, Hanspeter Pfister,
- Abstract要約: アクティブな3D再構成により、エージェントは視点を自律的に選択し、正確で完全なシーン形状を得ることができる。
本研究では,フィードフォワード3次元再構成モデルと視覚言語指導を利用したアクティブリコンストラクションエージェントAREA3Dを提案する。
本フレームワークは、フィードフォワード再構成器からビュー不確実性モデリングを分離し、高価なオンライン最適化を伴わずに正確な不確実性推定を可能にする。
- 参考スコア(独自算出の注目度): 36.125573065910594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active 3D reconstruction enables an agent to autonomously select viewpoints to efficiently obtain accurate and complete scene geometry, rather than passively reconstructing scenes from pre-collected images. However, existing active reconstruction methods often rely on hand-crafted geometric heuristics, which can lead to redundant observations without substantially improving reconstruction quality. To address this limitation, we propose AREA3D, an active reconstruction agent that leverages feed-forward 3D reconstruction models and vision-language guidance. Our framework decouples view-uncertainty modeling from the underlying feed-forward reconstructor, enabling precise uncertainty estimation without expensive online optimization. In addition, an integrated vision-language model provides high-level semantic guidance, encouraging informative and diverse viewpoints beyond purely geometric cues. Extensive experiments on both scene-level and object-level benchmarks demonstrate that AREA3D achieves state-of-the-art reconstruction accuracy, particularly in the sparse-view regime. Code will be made available at: https://github.com/TianlingXu/AREA3D .
- Abstract(参考訳): アクティブ3D再構成により、エージェントは、事前に収集した画像からシーンを受動的に再構成するのではなく、視点を自律的に選択して、正確で完全なシーン形状を効率的に得ることができる。
しかし、既存のアクティブリコンストラクション手法は、しばしば手作りの幾何学的ヒューリスティックに頼っているため、リコンストラクションの品質を大幅に向上させることなく、冗長な観察につながる可能性がある。
この制限に対処するために,フィードフォワード3D再構成モデルと視覚言語指導を利用したアクティブリコンストラクションエージェントAREA3Dを提案する。
本フレームワークは、フィードフォワード再構成器からビュー不確実性モデリングを分離し、高価なオンライン最適化を伴わずに正確な不確実性推定を可能にする。
さらに、統合視覚言語モデルは、純粋に幾何学的な手がかりを超えて、情報的かつ多様な視点を奨励する高レベルな意味指導を提供する。
シーンレベルのベンチマークとオブジェクトレベルのベンチマークの両方において、AREA3Dは、特にスパース・ビュー・レシエーションにおいて、最先端の再構築精度を達成することを示す。
コードは、https://github.com/TianlingXu/AREA3D で利用可能になる。
関連論文リスト
- AMB3R: Accurate Feed-forward Metric-scale 3D Reconstruction with Backend [18.645700170943975]
AMB3Rは、計量スケールで密集した3次元再構成のためのフィードフォワードモデルである。
AMB3Rは運動から非平衡視覚計測(オンライン)や大規模構造へシームレスに拡張可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T14:23:04Z) - EA3D: Online Open-World 3D Object Extraction from Streaming Videos [55.48835711373918]
オープンワールド3Dオブジェクト抽出のための統合オンラインフレームワークであるExtractAnything3D(EA3D)を提案する。
ストリーミングビデオが与えられると、EA3Dは視覚言語と2D視覚基盤エンコーダを使用して各フレームを動的に解釈し、オブジェクトレベルの知識を抽出する。
リカレントな共同最適化モジュールは、モデルの関心領域への注意を向け、幾何学的再構成と意味的理解の両面を同時に強化する。
論文 参考訳(メタデータ) (2025-10-29T03:56:41Z) - ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation [28.308731720451053]
我々はReconViaGenを提案する。
我々のReconViaGenは、グローバルな構造と局所的な詳細の両方において、入力ビューと整合した完全かつ正確な3Dモデルを再構築できることを実証した。
論文 参考訳(メタデータ) (2025-10-27T13:15:06Z) - Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity [78.7107376451476]
Hi3DEvalは3D生成コンテンツに適した階層的評価フレームワークである。
素材リアリズムを明示的に評価することで審美的外観を超えてテクスチャ評価を拡張する。
ハイブリッド3次元表現に基づく3次元自動スコアリングシステムを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:50:13Z) - GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。
提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文 参考訳(メタデータ) (2025-05-17T08:46:29Z) - Regist3R: Incremental Registration with Stereo Foundation Model [22.636140424781455]
コンピュータビジョンの分野では、マルチビュー3D再構成は不可欠だが難しい問題である。
本稿では,効率的かつスケーラブルな漸進的再構築に適した新しいステレオ基礎モデルであるRegist3Rを提案する。
カメラポーズ推定と3次元再構成のための公開データセット上でRegist3Rを評価する。
論文 参考訳(メタデータ) (2025-04-16T02:46:53Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - FineRecon: Depth-aware Feed-forward Network for Detailed 3D
Reconstruction [13.157400338544177]
ポーズ画像からの3次元再構成に関する最近の研究は、深層ニューラルネットワークを用いてシーンレベルの3次元幾何を直接推定できることを実証している。
推論に基づく3次元再構成の忠実度を改善するための有効な3つの方法を提案する。
提案手法はスムーズかつ高精度な再構成を行い,多深度および3次元再構成の指標において顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-04-04T02:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。