論文の概要: VIZOR: Viewpoint-Invariant Zero-Shot Scene Graph Generation for 3D Scene Reasoning
- arxiv url: http://arxiv.org/abs/2602.00637v1
- Date: Sat, 31 Jan 2026 10:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.307173
- Title: VIZOR: Viewpoint-Invariant Zero-Shot Scene Graph Generation for 3D Scene Reasoning
- Title(参考訳): VIZOR:3次元シーン推論のための視点不変ゼロショットシーングラフ生成
- Authors: Vivek Madhavaram, Vartika Sengar, Arkadipta De, Charu Sharma,
- Abstract要約: 3次元シーン推論(VIZOR)のための視点不変ゼロショットシーングラフ生成を提案する。
VIZORは、生の3Dシーンから直接、密集した視点不変の3Dシーングラフを構築する、トレーニングフリーでエンドツーエンドのフレームワークである。
注釈付きトレーニングデータを必要とすることなく、シーンオブジェクト間の空間的および近接的な関係を記述するオープン語彙関係を推論する。
- 参考スコア(独自算出の注目度): 1.9190955990713918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene understanding and reasoning has been a fundamental problem in 3D computer vision, requiring models to identify objects, their properties, and spatial or comparative relationships among the objects. Existing approaches enable this by creating scene graphs using multiple inputs such as 2D images, depth maps, object labels, and annotated relationships from specific reference view. However, these methods often struggle with generalization and produce inaccurate spatial relationships like "left/right", which become inconsistent across different viewpoints. To address these limitations, we propose Viewpoint-Invariant Zero-shot scene graph generation for 3D scene Reasoning (VIZOR). VIZOR is a training-free, end-to-end framework that constructs dense, viewpoint-invariant 3D scene graphs directly from raw 3D scenes. The generated scene graph is unambiguous, as spatial relationships are defined relative to each object's front-facing direction, making them consistent regardless of the reference view. Furthermore, it infers open-vocabulary relationships that describe spatial and proximity relationships among scene objects without requiring annotated training data. We conduct extensive quantitative and qualitative evaluations to assess the effectiveness of VIZOR in scene graph generation and downstream tasks, such as query-based object grounding. VIZOR outperforms state-of-the-art methods, showing clear improvements in scene graph generation and achieving 22% and 4.81% gains in zero-shot grounding accuracy on the Replica and Nr3D datasets, respectively.
- Abstract(参考訳): シーン理解と推論は3Dコンピュータビジョンの基本的な問題であり、モデルがオブジェクト、その特性、オブジェクト間の空間的または相対的関係を識別する必要がある。
既存のアプローチでは、2D画像、深度マップ、オブジェクトラベル、特定の参照ビューからの注釈付き関係などの複数のインプットを使用してシーングラフを作成することができる。
しかし、これらの手法は一般化に苦しむことが多く、異なる視点で矛盾する「左右」のような不正確な空間関係を生み出す。
これらの制約に対処するため、3次元シーン推論(VIZOR)のためのビューポイント不変ゼロショットシーングラフ生成を提案する。
VIZORは、生の3Dシーンから直接、密集した視点不変の3Dシーングラフを構築する、トレーニングフリーでエンドツーエンドのフレームワークである。
生成されたシーングラフは、各オブジェクトの正面方向に対して空間的関係が定義され、参照ビューに関わらず一貫性が保たれるため、曖昧である。
さらに、アノテートしたトレーニングデータを必要とすることなく、シーンオブジェクト間の空間的および近接的な関係を記述するオープン語彙関係を推論する。
本研究では,クエリベースのオブジェクトグラウンドティングなど,シーングラフ生成や下流タスクにおけるVIZORの有効性を評価するために,広範に定量的かつ定性的な評価を行う。
VIZORは最先端の手法より優れており、シーングラフ生成の改善が明らかになり、ReplicaとNr3Dデータセットのゼロショットグラウンド精度が22%と4.81%向上した。
関連論文リスト
- CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。