論文の概要: Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos
- arxiv url: http://arxiv.org/abs/2603.13185v1
- Date: Fri, 13 Mar 2026 17:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.220171
- Title: Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos
- Title(参考訳): モノクロ映像からの時空間空間グラフ生成に向けて
- Authors: Rohith Peddi, Saurabh, Shravan Shanmugam, Likhitha Pallapothula, Yu Xiang, Parag Singla, Vibhav Gogate,
- Abstract要約: 本稿では,Action Genomeの映像をフィードフォワード3D再構成により4DシーンにアップグレードするデータセットであるActionGenome4Dを紹介する。
次に、各タイムスタンプでワールドシーングラフを構築するタスクであるワールドシーングラフ生成(WSGG)を定式化する。
我々は3つの補完的手法を提案し、それぞれが観測されていない物体について推論するための異なる帰納バイアスを探索する。
- 参考スコア(独自算出の注目度): 17.190262848866396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatio-temporal scene graphs provide a principled representation for modeling evolving object interactions, yet existing methods remain fundamentally frame-centric: they reason only about currently visible objects, discard entities upon occlusion, and operate in 2D. To address this, we first introduce ActionGenome4D, a dataset that upgrades Action Genome videos into 4D scenes via feed-forward 3D reconstruction, world-frame oriented bounding boxes for every object involved in actions, and dense relationship annotations including for objects that are temporarily unobserved due to occlusion or camera motion. Building on this data, we formalize World Scene Graph Generation (WSGG), the task of constructing a world scene graph at each timestamp that encompasses all interacting objects in the scene, both observed and unobserved. We then propose three complementary methods, each exploring a different inductive bias for reasoning about unobserved objects: PWG (Persistent World Graph), which implements object permanence via a zero-order feature buffer; MWAE (Masked World Auto-Encoder), which reframes unobserved-object reasoning as masked completion with cross-view associative retrieval; and 4DST (4D Scene Transformer), which replaces the static buffer with differentiable per-object temporal attention enriched by 3D motion and camera-pose features. We further design and evaluate the performance of strong open-source Vision-Language Models on the WSGG task via a suite of Graph RAG-based approaches, establishing baselines for unlocalized relationship prediction. WSGG thus advances video scene understanding toward world-centric, temporally persistent, and interpretable scene reasoning.
- Abstract(参考訳): 時空間グラフは、進化するオブジェクトの相互作用をモデル化するための原則化された表現を提供するが、既存の手法は基本的にフレーム中心であり、それらは現在見えるオブジェクトのみを推論し、隠蔽されたエンティティを破棄し、2Dで操作する。
まず、ActionGenome4Dという、フィードフォワード3D再構成によるAction Genomeビデオの4Dシーンへのアップグレードデータセット、アクションに関わるすべてのオブジェクトに対するワールドフレーム指向のバウンディングボックス、そして、隠蔽やカメラの動きによって一時的に観察されないオブジェクトを含む密接な関係アノテーションを導入する。
このデータに基づいて,世界シーングラフ生成(WSGG, World Scene Graph Generation)を定式化した。
PWG(Persistent World Graph),MWAE(Masked World Auto-Encoder),MWAE(Masked World Auto-Encoder),非観測対象推論をマスク付き補完と相互関連性検索,4DST(4D Scene Transformer)の3つの補完手法を提案する。
我々は、グラフRAGに基づく一連のアプローチを用いて、WSGGタスク上での強力なオープンソースのビジョンランゲージモデルの性能をさらに設計し、評価し、非局所的な関係予測のベースラインを確立する。
したがって、WSGGは映像の理解を世界中心、時間的に永続的で解釈可能な場面推論へと進める。
関連論文リスト
- StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation [6.0744834626758495]
StemVLAは、未来の3D空間知識と歴史的4D表現の両方をアクション予測に明示的に組み込む新しいフレームワークである。
我々は,CALVIN ABC-D ベンチマーク [46] において,StemVLA はタスクの長期化と最先端性能を著しく向上し,XXX の平均シーケンス長を達成できることを示した。
論文 参考訳(メタデータ) (2026-02-27T06:43:37Z) - Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - MagicWorld: Interactive Geometry-driven Video World Exploration [30.475628938909242]
我々は、3次元幾何学的先行と歴史的検索を統合したインタラクティブなビデオワールドモデルMagicWorldを提案する。
本稿では,Action-Guided 3D Geometry Module (AG3D)を紹介した。
さらに、生成時に関連する履歴フレームを検索し、条件付き信号として注入するHistory Cache Retrieval (HCR) 機構を提案する。
論文 参考訳(メタデータ) (2025-11-24T08:41:28Z) - Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning [24.17324180628543]
本稿では,Retrieval-Augmented Reasoningを用いたOpen-World 3D Scene Graph Generationの統一フレームワークを提案する。
本手法は,視覚言語モデル(VLM)と検索に基づく推論を統合し,マルチモーダル探索と言語誘導インタラクションを支援する。
本研究では,3DSSG と Replica ベンチマークを用いて,多様な環境下での堅牢な一般化と優れた性能を実証する4つのタスクシーンの質問応答,視覚的グラウンド,インスタンス検索,タスク計画の検証を行った。
論文 参考訳(メタデータ) (2025-11-08T07:37:29Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。