論文の概要: Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction
- arxiv url: http://arxiv.org/abs/2510.04714v1
- Date: Mon, 06 Oct 2025 11:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.829938
- Title: Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction
- Title(参考訳): 強化された3次元シーングラフ予測のためのオブジェクト中心表現学習
- Authors: KunHo Heo, GiHyun Kim, SuYeon Kim, MyeongAh Cho,
- Abstract要約: 3Dセマンティックシーングラフ予測は、3Dシーンにおけるオブジェクトとその意味的関係を検出することを目的としている。
これまでの研究はデータセットの制限に対処し、Open-Vocabulary設定など、さまざまなアプローチを模索してきた。
本研究では,オブジェクトの特徴の質が全体のシーングラフの精度を決定する上で重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 3.7471945679132594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Semantic Scene Graph Prediction aims to detect objects and their semantic relationships in 3D scenes, and has emerged as a crucial technology for robotics and AR/VR applications. While previous research has addressed dataset limitations and explored various approaches including Open-Vocabulary settings, they frequently fail to optimize the representational capacity of object and relationship features, showing excessive reliance on Graph Neural Networks despite insufficient discriminative capability. In this work, we demonstrate through extensive analysis that the quality of object features plays a critical role in determining overall scene graph accuracy. To address this challenge, we design a highly discriminative object feature encoder and employ a contrastive pretraining strategy that decouples object representation learning from the scene graph prediction. This design not only enhances object classification accuracy but also yields direct improvements in relationship prediction. Notably, when plugging in our pretrained encoder into existing frameworks, we observe substantial performance improvements across all evaluation metrics. Additionally, whereas existing approaches have not fully exploited the integration of relationship information, we effectively combine both geometric and semantic features to achieve superior relationship prediction. Comprehensive experiments on the 3DSSG dataset demonstrate that our approach significantly outperforms previous state-of-the-art methods. Our code is publicly available at https://github.com/VisualScienceLab-KHU/OCRL-3DSSG-Codes.
- Abstract(参考訳): 3Dセマンティックシーングラフ予測は、オブジェクトとその意味的関係を3Dシーンで検出することを目的としており、ロボット工学とAR/VRアプリケーションにとって重要な技術として登場した。
これまでの研究では、データセットの制限に対処し、Open-Vocabularyの設定を含むさまざまなアプローチを探索したが、オブジェクトと関係性の特徴の表現能力の最適化に失敗し、識別能力の不足にもかかわらず、グラフニューラルネットワークへの過度な依存を示すことが多かった。
本研究では,オブジェクトの特徴の質が全体のシーングラフの精度を決定する上で重要な役割を担っていることを示す。
この課題に対処するために、高度に識別可能なオブジェクト特徴エンコーダを設計し、シーングラフ予測からオブジェクト表現学習を分離する対照的な事前学習戦略を用いる。
この設計は、オブジェクトの分類精度を高めるだけでなく、関係予測の直接的な改善をもたらす。
特に、トレーニング済みのエンコーダを既存のフレームワークにプラグインすると、すべての評価指標で大幅なパフォーマンス改善が観察されます。
さらに,既存の手法では関係情報の統合を十分に活用していないが,幾何学的特徴と意味的特徴を効果的に組み合わせ,より優れた関係予測を実現する。
3DSSGデータセットの総合的な実験により、我々のアプローチは従来の最先端手法よりも大幅に優れていることが示された。
私たちのコードはhttps://github.com/VisualScienceLab-KHU/OCRL-3DSSG-Codesで公開されています。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - GraphRelate3D: Context-Dependent 3D Object Detection with Inter-Object Relationship Graphs [13.071451453118783]
グラフ生成器とグラフニューラルネットワーク(GNN)から構成されるオブジェクト関係モジュールを導入し、特定のパターンから空間情報を学習し、3次元オブジェクト検出を改善する。
提案手法は,KITTI検証セットにおけるPV-RCNNのベースラインを,軽度,中等度,難易度でそれぞれ0.82%,0.74%,0.58%改善する。
論文 参考訳(メタデータ) (2024-05-10T19:18:02Z) - Explore Contextual Information for 3D Scene Graph Generation [43.66442227874461]
3次元シーングラフ生成(SGG)はコンピュータビジョンに大きな関心を寄せている。
本稿では,3次元SGGタスクのコンテキスト情報を完全に探索するフレームワークを提案する。
提案手法は,従来の3DSSGデータセットの手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-12T14:26:17Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Object-Based Augmentation Improves Quality of Remote SensingSemantic
Segmentation [0.0]
本研究では,オブジェクトベース拡張の開発とテストに焦点をあてる。
本研究では,トレーニングサンプル数を大幅に増加させるジオリファレンス画像拡張のための新しいパイプラインを提案する。
提示されたパイプラインはオブジェクトベースの拡張(OBA)と呼ばれ、オブジェクトのセグメンテーションマスクを利用して新しい現実的なトレーニングシーンを生成します。
論文 参考訳(メタデータ) (2021-05-12T08:54:55Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。