論文の概要: SGAligner++: Cross-Modal Language-Aided 3D Scene Graph Alignment
- arxiv url: http://arxiv.org/abs/2509.20401v2
- Date: Thu, 16 Oct 2025 15:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 18:56:32.552464
- Title: SGAligner++: Cross-Modal Language-Aided 3D Scene Graph Alignment
- Title(参考訳): SGAligner++: クロスプラットフォーム言語支援の3Dシーングラフアライメント
- Authors: Binod Singh, Sayan Deb Sarkar, Iro Armeni,
- Abstract要約: SGAligner++は,3次元シーングラフアライメントのための言語支援フレームワークである。
提案手法は,異種多様度にまたがる部分重なり合うシーン観察の整列化という課題に対処する。
軽量なユニモーダルエンコーダとアテンションベースのフュージョンを用いることで、SGAligner++は視覚的ローカライゼーション、3D再構成、ナビゲーションといったタスクのシーン理解を強化する。
- 参考スコア(独自算出の注目度): 10.732527160480444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning 3D scene graphs is a crucial initial step for several applications in robot navigation and embodied perception. Current methods in 3D scene graph alignment often rely on single-modality point cloud data and struggle with incomplete or noisy input. We introduce SGAligner++, a cross-modal, language-aided framework for 3D scene graph alignment. Our method addresses the challenge of aligning partially overlapping scene observations across heterogeneous modalities by learning a unified joint embedding space, enabling accurate alignment even under low-overlap conditions and sensor noise. By employing lightweight unimodal encoders and attention-based fusion, SGAligner++ enhances scene understanding for tasks such as visual localization, 3D reconstruction, and navigation, while ensuring scalability and minimal computational overhead. Extensive evaluations on real-world datasets demonstrate that SGAligner++ outperforms state-of-the-art methods by up to 40% on noisy real-world reconstructions, while enabling cross-modal generalization.
- Abstract(参考訳): 3Dシーングラフのアライメントは、ロボットナビゲーションや知覚の具体化において、いくつかのアプリケーションにとって重要な第一歩である。
3Dシーングラフアライメントの現在の手法は、単一のモダリティポイントクラウドデータに依存し、不完全またはノイズの多い入力に苦労することが多い。
SGAligner++は,3次元シーングラフアライメントのための言語支援フレームワークである。
本手法は,低オーバーラップ条件下でも正確なアライメントとセンサノイズを実現するために,統一的な関節埋め込み空間を学習することにより,異種モード間のシーン観察を部分的に重畳させるという課題に対処する。
軽量なユニモーダルエンコーダとアテンションベースのフュージョンを用いることで、SGAligner++は、視覚的なローカライゼーション、3D再構成、ナビゲーションといったタスクに対するシーン理解を強化し、スケーラビリティと最小の計算オーバーヘッドを確保している。
実世界のデータセットに対する大規模な評価では、SGAligner++は、ノイズの多い実世界の再構築において、最先端のメソッドを最大40%上回り、クロスモーダルな一般化を実現している。
関連論文リスト
- GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation [27.566010743301675]
本稿では,3次元ガウスシーン表現に基づく新しい統合運転世界モデルフレームワークを提案する。
提案手法は,各ガウス語原始語にリッチ言語的特徴を埋め込むことにより,テキスト情報を3Dシーンと直接整合させる。
さらに,冗長な3Dガウスを除去し,高精度でコンパクトな3DトークンをLSMに注入するタスク対応言語誘導サンプリング戦略を設計する。
論文 参考訳(メタデータ) (2025-12-29T03:40:05Z) - GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding [20.578106363482018]
本稿では,セマンティッククラスタリングとシーングラフ生成を統合し,3DGSに基づくシーン理解を強化する新しいフレームワークを提案する。
本稿では,シーンスケールや特徴分布に動的に対応し,特徴圧縮を回避する"Control-Follow"クラスタリング戦略を提案する。
2次元基礎モデルから抽出したオブジェクト属性と空間関係を統合することでシーン表現を充実させる。
論文 参考訳(メタデータ) (2025-03-06T02:36:59Z) - CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文 参考訳(メタデータ) (2025-02-20T20:05:30Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。