論文の概要: RelWitness: Open-Vocabulary 3D Scene Graph Generation with Visual-Geometric Relation Witnesses
- arxiv url: http://arxiv.org/abs/2605.20823v1
- Date: Wed, 20 May 2026 07:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.548862
- Title: RelWitness: Open-Vocabulary 3D Scene Graph Generation with Visual-Geometric Relation Witnesses
- Title(参考訳): RelWitness:ビジュアル・ジオメトリ・リレーション・ウィットネスを用いたオープン・ボキャブラリ3次元シーングラフ生成
- Authors: Minh Anh Nguyen, Quang Huy Tran, Bao Ngoc Le, Tuan Kiet Pham, Sui Yang Guang,
- Abstract要約: 不完全な関係管理の下で提案したRGB-Dシークエンスからオープン語彙の3Dシーングラフを生成するフレームワークを提案する。
重要なコンセプトは関係の証人であり、キャプチャーされたシーンで関係を観察できる具体的な視覚幾何学的キューである。
RelWitnessはRGBビュー、深度マップ、再構成された3D幾何、ロールセンシティブなテキスト、オブジェクト-プリアヌルビュー、マルチビュー一貫性から関係証記録を構築する。
- 参考スコア(独自算出の注目度): 1.3468350096927395
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Open-vocabulary 3D scene graph generation seeks to describe object instances and their relations with flexible natural-language predicates. The central difficulty is not only vocabulary expansion, but supervision reliability: relation annotations in 3D scene graph datasets are selective, and many valid object-pair relations are unannotated. We propose RelWitness, a framework for open-vocabulary 3D scene graph generation from posed RGB-D sequences under incomplete relation supervision. The key concept is a relation witness: a concrete visual-geometric cue that makes a relation observable in the captured scene. Support relations require contact and vertical ordering; containment requires enclosure; proximity requires metric closeness; orientation requires facing direction; and stable relations should persist across views where both objects are visible. RelWitness constructs relation witness records from RGB views, depth maps, reconstructed 3D geometry, role-sensitive text, object-prior null views, and multi-view consistency. A visual-geometric witness verifier assigns unannotated relation candidates to verified missing positives, reliable negatives, or uncertain unlabeled cases. A witness-guided positive-unlabeled objective then learns from incomplete annotations without turning every missing label into a negative. We further introduce witness-consistent decoding and an RGB-D missing-relation audit protocol. Simulated manuscript-planning experiments on 3DSSG/3RScan and ScanNet-derived open-vocabulary splits show the intended behavior: improved unseen-relation recognition, higher witness precision, lower hallucination, and reduced redundant relation phrases. All numerical results are planning values and must be replaced by reproduced measurements before submission
- Abstract(参考訳): Open-vocabulary 3D scene graph generationは、オブジェクトのインスタンスとそのフレキシブルな自然言語述語との関係を記述しようとする。
3次元シーングラフデータセットにおける関係アノテーションは選択的であり、多くの有効なオブジェクトペア関係は無注釈である。
提案するRelWitnessは,RGB-D配列を不完全な関係管理下で生成するオープン語彙3Dシーングラフ生成フレームワークである。
重要な概念は関係の証人であり、キャプチャーされたシーンで関係を観察できる具体的な視覚幾何学的キューである。
サポート関係には接触と垂直の順序付けが必要であり、封じ込めには囲いが必要であり、近接にはメートル法的近接性が必要であり、向きは向きを変えなければならない。
RelWitnessはRGBビュー、深度マップ、再構成された3D幾何、ロールセンシティブなテキスト、オブジェクト-プリアヌルビュー、マルチビュー一貫性から関係証記録を構築する。
視覚幾何学的証人検証器は、注釈のない関係候補を、確認済みの正、信頼できない負、不確実な未ラベルのケースに割り当てる。
目撃者による肯定的な未ラベルの目的は、失ったラベルをすべて否定的なものにすることなく、不完全なアノテーションから学習する。
さらに、証人一致復号とRGB-D欠損関連監査プロトコルを導入する。
3DSSG/3RScanとScanNet由来のオープンボキャブラリスプリットのシミュレートされた原稿計画実験は、未確認関係認識の改善、目撃者精度の向上、幻覚の低下、冗長な関係句の減少といった意図された振る舞いを示している。
すべての数値は計画値であり、提出前に再現された測定値に置き換えられなければならない
関連論文リスト
- ReLIC-SGG: Relation Lattice Completion for Open-Vocabulary Scene Graph Generation [5.184088650563149]
オープン語彙シーングラフ生成のための関係不完全性認識フレームワークである textbfRelic-SGG を提案する。
Relic-SGGは、開語彙述語間の類似性、包含、矛盾をモデル化するための意味的関係格子を構築する。
実験により、Relic-SGGは稀で目に見えない述語認識を改善し、行方不明な関係を回復することが示された。
論文 参考訳(メタデータ) (2026-04-24T13:36:41Z) - CAGE-SGG: Counterfactual Active Graph Evidence for Open-Vocabulary Scene Graph Generation [16.971992237358638]
Open-vocabulary scene graph generation (SGG) は、フレキシブルできめ細かな関係句で視覚的なシーンを記述することを目的としている。
本稿では,反実的関係検証に基づくエビデンスを包含したオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-24T06:34:45Z) - Edge-Centric Relational Reasoning for 3D Scene Graph Prediction [74.19580969696898]
3Dシーングラフ予測は、複雑な3D環境をオブジェクトとそのペア関係からなる構造化グラフに抽象化することを目的としている。
既存のアプローチでは、接続されたオブジェクトノードからメッセージを集約することで、関係エッジ機能を反復的に更新するオブジェクト中心のグラフニューラルネットワークが一般的である。
本稿では,オブジェクト認識融合を用いたリンク誘導エッジ中心関係推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-19T09:53:56Z) - Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels [81.22943696917304]
擬似ラベルを3次元認識することで意味的対応性の推定を改善することを提案する。
我々はSPair-71kに新たな最先端技術を導入し、同様の監督要件を持つ手法と比較して、絶対的な4%以上、7%以上を達成した。
論文 参考訳(メタデータ) (2025-06-05T17:54:33Z) - Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。
本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。
我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文 参考訳(メタデータ) (2025-04-16T14:03:24Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。