論文の概要: OpenSGA: Efficient 3D Scene Graph Alignment in the Open World
- arxiv url: http://arxiv.org/abs/2605.10484v1
- Date: Mon, 11 May 2026 12:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.81685
- Title: OpenSGA: Efficient 3D Scene Graph Alignment in the Open World
- Title(参考訳): OpenSGA: オープンワールドにおける効率的な3Dシーングラフアライメント
- Authors: Gang Chen, Sebastián Barbas Laina, Stefan Leutenegger, Javier Alonso-Mora,
- Abstract要約: シーングラフアライメントは、部分的に重なり合う観察から構築された2つの3次元シーングラフ間のオブジェクト対応を確立する。
既存のアプローチは主にサブスキャン・ツー・サブスキャン(S2S)アライメントに焦点を当てており、幾何点雲の特徴に大きく依存している。
視覚言語,テキスト,幾何学的特徴を空間的コンテキストで融合することにより,オブジェクトの対応性を予測する,統一的で効率的なシーングラフアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.9502908270849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph alignment establishes object correspondences between two 3D scene graphs constructed from partially overlapping observations. This enables efficient scene understanding and object-level relocalization when a robot revisits a place, as well as global map fusion across multiple agents. Such capabilities are essential for robots that require long-term memory for long-horizon tasks involving interactions with the environment. Existing approaches mainly focus on subscan-to-subscan (S2S) alignment and depend heavily on geometric point-cloud features, leaving frame-to-scan (F2S) alignment and open-set vision-language features underexplored. In addition, existing datasets for scene graph alignment remain small-scale with limited object diversity, constraining systematic training and evaluation. We present a unified and efficient scene graph alignment framework that predicts object correspondences by fusing vision-language, textual, and geometric features with spatial context. The framework comprises modules such as a distance-gated spatial attention encoder, a minimum-cost-flow-based allocator, and a global scene embedding generator to achieve accurate alignment even under large coordinate discrepancies. We further introduce ScanNet-SG, a large-scale dataset generated via an automated annotation pipeline with over 700k samples, covering 509 object categories from ScanNet labels and over 3k categories from GPT-4o-based tagging. Experiments show that our method achieves the best overall performance on both F2S and S2S tasks, substantially outperforming existing scene graph alignment methods. Our code and dataset are released at: https://autonomousrobots.nl/paper_websites/opensga.
- Abstract(参考訳): シーングラフアライメントは、部分的に重なり合う観察から構築された2つの3次元シーングラフ間のオブジェクト対応を確立する。
これにより、ロボットが場所を再考する際の効率的なシーン理解とオブジェクトレベルの再ローカライズと、複数のエージェントをまたいだグローバルマップの融合が可能になる。
このような能力は、環境との相互作用を含む長期タスクのために長期記憶を必要とするロボットにとって不可欠である。
既存のアプローチは主にサブスキャン・ツー・サブスキャン(S2S)のアライメントに重点を置いており、幾何点雲の特徴に大きく依存しており、フレーム・ツー・スキャン(F2S)のアライメントとオープンセットの視覚言語機能はまだ探索されていない。
さらに、シーングラフアライメントのための既存のデータセットは、オブジェクトの多様性を制限し、体系的なトレーニングと評価を制限しながら、小規模のままである。
視覚言語,テキスト,幾何学的特徴を空間的コンテキストで融合することにより,オブジェクトの対応性を予測する,統一的で効率的なシーングラフアライメントフレームワークを提案する。
フレームワークは、距離ゲート空間注目エンコーダ、最小コストフローベースのアロケータ、及び大域的なシーン埋め込みジェネレータなどのモジュールから構成され、大きな座標不一致の下でも正確なアライメントを実現する。
ScanNet-SGはまた、700k以上のサンプルを持つ自動アノテーションパイプラインを通じて生成された大規模データセットであるScanNet-SGを紹介し、ScanNetラベルから509のオブジェクトカテゴリ、GPT-4oベースのタグ付けから3k以上のカテゴリをカバーしている。
実験により,本手法はF2SタスクとS2Sタスクの両方において最高の総合的な性能を達成でき,既存のシーングラフアライメント手法よりも大幅に優れていることがわかった。
私たちのコードとデータセットは、https://autonomousrobots.nl/paper_websites/opensga.comでリリースされています。
関連論文リスト
- Graph-Guided Dual-Level Augmentation for 3D Scene Segmentation [21.553363236403822]
3Dポイントクラウドセグメンテーションは、シーン内の個々のポイントにセマンティックラベルを割り当てることを目的としている。
既存の手法では、大規模なアノテーションの負担を軽減するためにデータ拡張を採用するのが一般的である。
本稿では,現実的な3次元シーン合成のための2レベル制約付きグラフ誘導型データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-30T13:25:36Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - WildScenes: A Benchmark for 2D and 3D Semantic Segmentation in Large-scale Natural Environments [33.25040383298019]
$WildScenes$は、高解像度の2Dイメージと高密度の3D LiDARポイントクラウドで構成されるバイモーダルベンチマークデータセットである。
データは軌道中心であり、正確なローカライゼーションとグローバルに整列した点雲がある。
我々の3Dセマンティックラベルは、人間の注釈付き2Dラベルを複数のビューから3Dポイントクラウドシーケンスに転送する効率的で自動化されたプロセスによって得られる。
論文 参考訳(メタデータ) (2023-12-23T22:27:40Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。