論文の概要: RAG-3DSG: Enhancing 3D Scene Graphs with Re-Shot Guided Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.10168v1
- Date: Thu, 15 Jan 2026 08:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.052464
- Title: RAG-3DSG: Enhancing 3D Scene Graphs with Re-Shot Guided Retrieval-Augmented Generation
- Title(参考訳): RAG-3DSG: Re-Shot Guided Retrieval-Augmented Generationによる3Dシーングラフの強化
- Authors: Yue Chang, Rufeng Chen, Zhaofan Zhang, Yi Chen, Sihong Xie,
- Abstract要約: Open-vocabulary 3D Scene Graph (3DSG) 生成は、構造化セマンティック表現を活用することで、操作やナビゲーションといったロボット工学におけるさまざまな下流タスクを強化することができる。
オープン語彙3DSG生成のための既存の作業は、オブジェクトレベルの認識精度と速度の両方が低い。
我々はRAG-3DSGを提案する。RAG(Retrieval-Augmented Generation)とRAG(Retrieval-Augmented Generation)は、信頼性の高い低不確実性オブジェクトを経由する。
- 参考スコア(独自算出の注目度): 14.318014901625666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D Scene Graph (3DSG) generation can enhance various downstream tasks in robotics, such as manipulation and navigation, by leveraging structured semantic representations. A 3DSG is constructed from multiple images of a scene, where objects are represented as nodes and relationships as edges. However, existing works for open-vocabulary 3DSG generation suffer from both low object-level recognition accuracy and speed, mainly due to constrained viewpoints, occlusions, and redundant surface density. To address these challenges, we propose RAG-3DSG to mitigate aggregation noise through re-shot guided uncertainty estimation and support object-level Retrieval-Augmented Generation (RAG) via reliable low-uncertainty objects. Furthermore, we propose a dynamic downsample-mapping strategy to accelerate cross-image object aggregation with adaptive granularity. Experiments on Replica dataset demonstrate that RAG-3DSG significantly improves node captioning accuracy in 3DSG generation while reducing the mapping time by two-thirds compared to the vanilla version.
- Abstract(参考訳): Open-vocabulary 3D Scene Graph (3DSG) 生成は、構造化セマンティック表現を活用することで、操作やナビゲーションといったロボット工学におけるさまざまな下流タスクを強化することができる。
3DSGはシーンの複数のイメージから構築され、オブジェクトはノードとして表現され、関係はエッジとして表現される。
しかし、既存のオープン語彙3DSG生成の研究は、主に制約された視点、オクルージョン、冗長な表面密度のために、低オブジェクトレベルの認識精度と速度の両方に悩まされている。
これらの課題に対処するため,RAG-3DSGを提案する。
さらに,適応的な粒度を持つクロスイメージオブジェクトアグリゲーションを高速化するための動的ダウンサンプルマッピング戦略を提案する。
Replicaデータセットの実験では、RAG-3DSGは3DSG生成におけるノードキャプション精度を著しく改善し、マッピング時間をバニラバージョンに比べて3分の2削減することを示した。
関連論文リスト
- IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images [8.271449021226417]
本稿では,オンラインで高速な3D SSG生成技術であるFROSS(Faster-than-Real-Time Online 3D Semantic Scene Graph Generation)を提案する。
このフレームワークは、正確で計算集約的なポイントクラウド処理への依存を取り除く。
実験により、FROSSは従来の3次元生成法よりもはるかに高速に動作しながら、優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-07-26T16:16:52Z) - Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。
本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文 参考訳(メタデータ) (2025-04-05T14:42:13Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - Optimizing 3D Gaussian Splatting for Sparse Viewpoint Scene Reconstruction [11.840097269724792]
3D Gaussian Splatting (3DGS)は3Dシーン表現の有望なアプローチとして登場し、Neural Radiance Fields (NeRF)と比較して計算オーバーヘッドの低減を実現している。
SVS-GSは,3次元ガウス平滑化フィルタを統合して人工物を抑制する,スパースビューポイントシーン再構築のための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-05T03:18:04Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。