論文の概要: OED: Towards One-stage End-to-End Dynamic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2405.16925v1
- Date: Mon, 27 May 2024 08:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:31:14.592634
- Title: OED: Towards One-stage End-to-End Dynamic Scene Graph Generation
- Title(参考訳): OED: ワンステージのエンド・ツー・エンドな動的シーングラフ生成を目指して
- Authors: Guan Wang, Zhimin Li, Qingchao Chen, Yang Liu,
- Abstract要約: ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。
本稿では,DSGGパイプラインを合理化する一段階のエンドツーエンドフレームワークOEDを提案する。
このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
- 参考スコア(独自算出の注目度): 18.374354844446962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic Scene Graph Generation (DSGG) focuses on identifying visual relationships within the spatial-temporal domain of videos. Conventional approaches often employ multi-stage pipelines, which typically consist of object detection, temporal association, and multi-relation classification. However, these methods exhibit inherent limitations due to the separation of multiple stages, and independent optimization of these sub-problems may yield sub-optimal solutions. To remedy these limitations, we propose a one-stage end-to-end framework, termed OED, which streamlines the DSGG pipeline. This framework reformulates the task as a set prediction problem and leverages pair-wise features to represent each subject-object pair within the scene graph. Moreover, another challenge of DSGG is capturing temporal dependencies, we introduce a Progressively Refined Module (PRM) for aggregating temporal context without the constraints of additional trackers or handcrafted trajectories, enabling end-to-end optimization of the network. Extensive experiments conducted on the Action Genome benchmark demonstrate the effectiveness of our design. The code and models are available at \url{https://github.com/guanw-pku/OED}.
- Abstract(参考訳): ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。
従来のアプローチでは、通常、オブジェクト検出、時間的関連付け、およびマルチリレーショナル分類からなる多段階パイプラインを使用する。
しかし、これらの手法は複数の段階の分離による固有の制限を示し、これらのサブプロブレムの独立な最適化は準最適解をもたらす可能性がある。
これらの制限を緩和するために,DSGGパイプラインの合理化を目的とした,OEDと呼ばれるワンステージのエンドツーエンドフレームワークを提案する。
このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
さらに、DSGGのもう一つの課題は、時間的依存を捉えることであり、我々は、追加のトラッカーや手作りのトラジェクトリの制約を伴わずに、時間的コンテキストを集約するプログレッシブ・リファインド・モジュール(PRM)を導入し、ネットワークのエンドツーエンドの最適化を可能にする。
Action Genomeベンチマークで行った大規模な実験は、我々の設計の有効性を実証している。
コードとモデルは \url{https://github.com/guanw-pku/OED} で公開されている。
関連論文リスト
- COOL: A Conjoint Perspective on Spatio-Temporal Graph Neural Network for
Traffic Forecasting [10.392021668859272]
本稿では,先行情報と後続情報から異種グラフをモデル化し,高次時間関係を連続的に捉えるコンジョイント時空間グラフニューラルネットワーク(COOL)を提案する。
交通予知性を高めるために,マルチランクとマルチスケールの両方から多様な時間パターンをモデル化するコンジョイント・アテンション・デコーダを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:30:09Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - A Novel Long-term Iterative Mining Scheme for Video Salient Object
Detection [54.53335983750033]
短期的方法論は視覚システムの実際のメカニズムと矛盾する。
そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。
提案手法は、広く使用されている5つのベンチマークデータセットにおいて、ほぼ全てのSOTAモデルより優れている。
論文 参考訳(メタデータ) (2022-06-20T04:27:47Z) - Spatio-Temporal Joint Graph Convolutional Networks for Traffic
Forecasting [75.10017445699532]
近年、時間グラフモデリング問題として交通予測の定式化に焦点が移っている。
本稿では,道路網における交通予測の精度向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-25T08:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。