Fugu-MT 論文翻訳(概要): Spatial-Temporal Transformer for Dynamic Scene Graph Generation

論文の概要: Spatial-Temporal Transformer for Dynamic Scene Graph Generation

arxiv url: http://arxiv.org/abs/2107.12309v1
Date: Mon, 26 Jul 2021 16:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-27 15:59:54.825750
Title: Spatial-Temporal Transformer for Dynamic Scene Graph Generation
Title（参考訳）: 動的シーングラフ生成のための空間時間変換器
Authors: Yuren Cong, Wentong Liao, Hanno Ackermann, Michael Ying Yang, Bodo Rosenhahn
Abstract要約: 本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
参考スコア（独自算出の注目度）: 34.190733855032065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dynamic scene graph generation aims at generating a scene graph of the given video. Compared to the task of scene graph generation from images, it is more challenging because of the dynamic relationships between objects and the temporal dependencies between frames allowing for a richer semantic interpretation. In this paper, we propose Spatial-temporal Transformer (STTran), a neural network that consists of two core modules: (1) a spatial encoder that takes an input frame to extract spatial context and reason about the visual relationships within a frame, and (2) a temporal decoder which takes the output of the spatial encoder as input in order to capture the temporal dependencies between frames and infer the dynamic relationships. Furthermore, STTran is flexible to take varying lengths of videos as input without clipping, which is especially important for long videos. Our method is validated on the benchmark dataset Action Genome (AG). The experimental results demonstrate the superior performance of our method in terms of dynamic scene graphs. Moreover, a set of ablative studies is conducted and the effect of each proposed module is justified.
Abstract（参考訳）: 動的シーングラフ生成は、与えられたビデオのシーングラフを生成することを目的としている。画像からシーングラフを生成するタスクと比較して、オブジェクト間の動的関係とフレーム間の時間的依存関係により、よりリッチな意味解釈が可能になるため、より難しい。本稿では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダ,(2)フレーム間の時間的依存関係を捉えるために空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークである空間時間変換器(STTran)を提案する。さらに、sttranはクリップなしで様々な長さの動画を入力できる柔軟性があり、これは長編ビデオにとって特に重要である。本手法はベンチマークデータセットであるAction Genome (AG) で検証する。実験の結果,動的シーングラフによる手法の優れた性能が示された。さらに,一連のアブレーション研究を行い,提案するモジュールの効果を正当化する。

関連論文リスト

THYME: Temporal Hierarchical-Cyclic Interactivity Modeling for Video Scene Graphs in Aerial Footage [11.587822611656648]
時間的階層的周期的シーングラフ(THYME)アプローチを導入し,階層的特徴集約と周期的時間的改善を統合して限界に対処する。 THYMEは、マルチスケールの空間コンテキストを効果的にモデル化し、フレーム間の時間的一貫性を強制し、より正確で一貫性のあるシーングラフを生成する。さらに,既存のデータセットの制約を克服する5種類の対話性を備えた新しい空中ビデオデータセットであるAeroEye-v1.0を提案する。
論文参考訳（メタデータ） (2025-07-12T08:43:38Z)
DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。 DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文参考訳（メタデータ） (2025-03-18T06:49:51Z)
Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文参考訳（メタデータ） (2025-01-27T10:57:24Z)
Temporally Consistent Dynamic Scene Graphs: An End-to-End Approach for Action Tracklet Generation [1.6584112749108326]
TCDSG、Temporally Consistent Dynamic Scene Graphsは、時間を通して対象と対象の関係を検出し、追跡し、リンクするエンドツーエンドのフレームワークである。私たちの研究は、マルチフレームビデオ分析における新しい標準を設定し、監視、自律ナビゲーションなどにおける、高インパクトなアプリケーションのための新たな道を開く。
論文参考訳（メタデータ） (2024-12-03T20:19:20Z)
CYCLO: Cyclic Graph Transformer Approach to Multi-Object Relationship Modeling in Aerial Videos [9.807247838436489]
本研究では,空中ビデオにおける多目的関係モデリングに焦点を当てた新しいAeroEyeデータセットを提案する。本稿では,Cyclic Graph Transformer (CYCLO) アプローチを提案する。また、提案手法により、固有巡回パターンでシーケンスを処理し、オブジェクト関係を正しい順序で処理することができる。
論文参考訳（メタデータ） (2024-06-03T06:24:55Z)
Local-Global Information Interaction Debiasing for Dynamic Scene Graph Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文参考訳（メタデータ） (2023-08-10T01:24:25Z)
Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:03:23Z)
Cross-Modality Time-Variant Relation Learning for Generating Dynamic Scene Graphs [16.760066844287046]
動的シーングラフにおける関係の時間的変化をモデル化するために,時間変動型関係対応TRansformer (TR$2$)を提案する。 TR$2$は2つの異なる設定下で従来の最先端メソッドよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-05-15T10:30:38Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。我々はCNNを用いて各フレームを視覚的特徴系列に変換する。実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文参考訳（メタデータ） (2022-05-10T08:47:15Z)
Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文参考訳（メタデータ） (2022-03-01T12:13:46Z)
Exploring Motion and Appearance Information for Temporal Sentence Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2022-01-03T02:44:18Z)
Exploiting Long-Term Dependencies for Generating Dynamic Scene Graphs [15.614710220461353]
動的シーングラフを効果的に生成するためには,長期的依存関係のキャプチャが鍵となることを示す。実験の結果,動的シーングラフ検出変換器(DSG-DETR)は最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2021-12-18T03:02:11Z)
StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文参考訳（メタデータ） (2021-07-15T09:58:15Z)
Augmented Transformer with Adaptive Graph for Temporal Action Proposal Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文参考訳（メタデータ） (2021-03-30T02:01:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。