論文の概要: ToLL: Topological Layout Learning with Structural Multi-view Augmentation for 3D Scene Graph Pretraining
- arxiv url: http://arxiv.org/abs/2603.28178v1
- Date: Mon, 30 Mar 2026 08:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.309985
- Title: ToLL: Topological Layout Learning with Structural Multi-view Augmentation for 3D Scene Graph Pretraining
- Title(参考訳): ToLL:3次元シーングラフ事前学習のための構造的マルチビュー強化によるトポロジカルレイアウト学習
- Authors: Yucheng Huang, Luping Ji, Xiangwei Jiang, Wen Li, Mao Ye,
- Abstract要約: 3D Scene Graph (3DSG) 生成は空間的理解と意味認識において重要な役割を担っている。
現在のソリューションは主に、クロスモーダル支援表現学習とオブジェクト中心生成事前学習に焦点を当てている。
3DSG事前学習のためのトポロジカルレイアウト学習(ToLL)を提案する。
より詳しくは,GNNを用いたアンカー・コンディショントポロジカル・ジオメトリ・推論を設計し,空間的なアンカーからゼロ中心部分グラフのグローバルなレイアウトを復元する。
- 参考スコア(独自算出の注目度): 29.799719863247287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D Scene Graph (3DSG) generation plays a pivotal role in spatial understanding and semantic-affordance perception. However, its generalizability is often constrained by data scarcity. Current solutions primarily focus on cross-modal assisted representation learning and object-centric generation pre-training. The former relies heavily on predicate annotations, while the latter's predicate learning may be bypassed due to strong object priors. Consequently, they could not often provide a label-free and robust self-supervised proxy task for 3DSG fine-tuning. To bridge this gap, we propose a Topological Layout Learning (ToLL) for 3DSG pretraining framework. In detail, we design an Anchor-Conditioned Topological Geometry Reasoning, with a GNN to recover the global layout of zero-centered subgraphs by the spatial priors from sparse anchors. This process is strictly modulated by predicate features, thereby enforcing the predicate relation learning. Furthermore, we construct a Structural Multi-view Augmentation to avoid semantic corruption, and enhancing representations via self-distillation. The extensive experiments on 3DSSG dataset demonstrate that our ToLL could improve representation quality, outperforming state-of-the-art baselines.
- Abstract(参考訳): 3D Scene Graph (3DSG) 生成は空間的理解と意味認識において重要な役割を担っている。
しかし、その一般化性はデータ不足によって制約されることが多い。
現在のソリューションは主に、クロスモーダル支援表現学習とオブジェクト中心生成事前学習に焦点を当てている。
前者は述語アノテーションに大きく依存するが、後者の述語学習は強い対象の先行性のためにバイパスされることがある。
そのため、3DSGファインチューニングのためのラベルフリーで堅牢なセルフ教師付きプロキシタスクをしばしば提供できなかった。
このギャップを埋めるために,3DSG事前学習フレームワークのためのトポロジカルレイアウト学習(ToLL)を提案する。
より詳しくは,GNNを用いたアンカー・コンディショントポロジカル・ジオメトリ・推論を設計し,空間的なアンカーからゼロ中心部分グラフのグローバルなレイアウトを復元する。
このプロセスは、述語的特徴によって厳格に調整され、述語的関係学習が強制される。
さらに,意味的腐敗を回避し,自己蒸留による表現の強化を図るため,構造的多視点拡張を構築した。
3DSSGデータセットに関する広範な実験は、ToLLが表現品質を改善し、最先端のベースラインを上回ることを実証している。
関連論文リスト
- Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D [51.32219731589742]
3Dシーングラフは、オブジェクトエンティティとその関連性の構造化された表現を提供する。
3次元シーングラフ生成のための既存のアプローチは、通常、シーン再構成とグラフニューラルネットワーク(GNN)を組み合わせる。
本研究では,3次元のSGR3モデルを用いたScene Graph Retrieval-Reasoning Modelを提案する。
論文 参考訳(メタデータ) (2026-03-04T21:19:54Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - A Scene Graph Backed Approach to Open Set Semantic Mapping [1.8266902367595235]
オープンセットセマンティックマッピングと3次元シーングラフ(DSSG)はロボット知覚のパラダイムとして確立されている。
本稿では,3DSSGが基本的なバックエンドとして機能し,主要な知識表現として機能するマッピングアーキテクチャを提案する。
これにより、大規模な設定で拡張された操作であっても、地図が位相的に一貫性を持ち、計算的に効率的であることを保証する。
論文 参考訳(メタデータ) (2026-02-03T17:41:51Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - LOC: A General Language-Guided Framework for Open-Set 3D Occupancy Prediction [9.311605679381529]
我々は,様々な占有ネットワークに適用可能な汎用言語誘導フレームワークLOCを提案する。
自己教師型タスクには,動的/静的シーンに多フレームLiDAR点を融合する戦略,ポアソン再構成を用いて空白を埋める手法,K-Nearest Neighbor (KNN) を介してボクセルに意味を割り当てる手法を用いる。
我々のモデルは,CLIP機能空間に埋め込まれた高密度なボクセル特徴を予測し,テキストと画像の画素情報を統合し,テキストとセマンティックの類似性に基づいて分類する。
論文 参考訳(メタデータ) (2025-10-25T03:27:19Z) - Integrating Prior Observations for Incremental 3D Scene Graph Prediction [0.866627581195388]
3Dセマンティックシーングラフ(3DSSG)は、オブジェクト、属性、関係性を明示的にモデル化することで、環境のコンパクトな構造化表現を提供する。
本稿では,先行観測などの付加的なマルチモーダル情報を直接メッセージパッシングプロセスに統合する,インクリメンタルな3DSSG予測のための新しいグラフモデルを提案する。
我々は3DSSGデータセットに対する我々のアプローチを評価し、GNNがセマンティック埋め込み(例えばCLIP)や事前観測などのマルチモーダル情報に富んだことが、複雑な実環境に対してスケーラブルで一般化可能なソリューションを提供することを示す。
論文 参考訳(メタデータ) (2025-09-15T13:10:34Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。