論文の概要: FDSG: Forecasting Dynamic Scene Graphs
- arxiv url: http://arxiv.org/abs/2506.01487v1
- Date: Mon, 02 Jun 2025 09:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.180049
- Title: FDSG: Forecasting Dynamic Scene Graphs
- Title(参考訳): FDSG:動的シーングラフの予測
- Authors: Yi Yang, Yuren Cong, Hao Cheng, Bodo Rosenhahn, Michael Ying Yang,
- Abstract要約: 本稿では,将来的なエンティティラベル,バウンディングボックス,および未観測フレームの関係を予測する新しいフレームワークを提案する。
時間アグリゲーションモジュールは、予測情報と観測情報とをクロスアテンションを介して統合することにより、予測をさらに洗練する。
Action Genomeの実験は、FDSGが動的シーングラフ生成、シーングラフ予測、シーングラフ予測において最先端の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 41.18167591493808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic scene graph generation extends scene graph generation from images to videos by modeling entity relationships and their temporal evolution. However, existing methods either generate scene graphs from observed frames without explicitly modeling temporal dynamics, or predict only relationships while assuming static entity labels and locations. These limitations hinder effective extrapolation of both entity and relationship dynamics, restricting video scene understanding. We propose Forecasting Dynamic Scene Graphs (FDSG), a novel framework that predicts future entity labels, bounding boxes, and relationships, for unobserved frames, while also generating scene graphs for observed frames. Our scene graph forecast module leverages query decomposition and neural stochastic differential equations to model entity and relationship dynamics. A temporal aggregation module further refines predictions by integrating forecasted and observed information via cross-attention. To benchmark FDSG, we introduce Scene Graph Forecasting, a new task for full future scene graph prediction. Experiments on Action Genome show that FDSG outperforms state-of-the-art methods on dynamic scene graph generation, scene graph anticipation, and scene graph forecasting. Codes will be released upon publication.
- Abstract(参考訳): 動的シーングラフ生成は、エンティティの関係と時間的進化をモデル化することによって、画像からビデオへのシーングラフ生成を拡張する。
しかし、既存の手法では、時間的ダイナミクスを明示的にモデル化することなく、観測されたフレームからシーングラフを生成するか、静的なエンティティラベルや位置を仮定しながら関係のみを予測する。
これらの制限は、実体と関係のダイナミクスの効果的な外挿を妨げ、映像シーンの理解を制限する。
本研究では、観測フレームに対する将来的なエンティティラベル、バウンディングボックス、リレーションを予測する新しいフレームワークであるFDSG(Forecasting Dynamic Scene Graphs)を提案する。
我々のシーングラフ予測モジュールは、クエリ分解とニューラル確率微分方程式を利用して、実体と関係のダイナミクスをモデル化する。
時間アグリゲーションモジュールは、予測情報と観測情報とをクロスアテンションを介して統合することにより、予測をさらに洗練する。
FDSGのベンチマークには、将来のシーングラフ予測のための新しいタスクであるScene Graph Forecastingを導入する。
Action Genomeの実験は、FDSGが動的シーングラフ生成、シーングラフ予測、シーングラフ予測において最先端の手法より優れていることを示している。
コードは出版時に公開される。
関連論文リスト
- Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation [10.678727237318503]
現実世界の視覚的関係はしばしば長い尾の分布を示し、既存の手法がバイアスのあるシーングラフを生成する。
損失マスキングとカリキュラム学習を利用してバイアス発生を緩和する新しいトレーニングフレームワークであるImparを提案する。
我々のカリキュラムによるマスク生成戦略は、バイアス緩和戦略を時間とともに適応的に調整し、よりバランスよく堅牢な推定を可能にします。
論文 参考訳(メタデータ) (2024-11-20T06:15:28Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Exploiting Long-Term Dependencies for Generating Dynamic Scene Graphs [15.614710220461353]
動的シーングラフを効果的に生成するためには,長期的依存関係のキャプチャが鍵となることを示す。
実験の結果,動的シーングラフ検出変換器(DSG-DETR)は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-18T03:02:11Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。