論文の概要: Target Adaptive Context Aggregation for Video Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2108.08121v1
- Date: Wed, 18 Aug 2021 12:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 19:21:33.741815
- Title: Target Adaptive Context Aggregation for Video Scene Graph Generation
- Title(参考訳): 映像シーングラフ生成のためのターゲット適応コンテキストアグリゲーション
- Authors: Yao Teng, Limin Wang, Zhifeng Li, Gangshan Wu
- Abstract要約: 本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
- 参考スコア(独自算出の注目度): 36.669700084337045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper deals with a challenging task of video scene graph generation
(VidSGG), which could serve as a structured video representation for high-level
understanding tasks. We present a new {\em detect-to-track} paradigm for this
task by decoupling the context modeling for relation prediction from the
complicated low-level entity tracking. Specifically, we design an efficient
method for frame-level VidSGG, termed as {\em Target Adaptive Context
Aggregation Network} (TRACE), with a focus on capturing spatio-temporal context
information for relation recognition. Our TRACE framework streamlines the
VidSGG pipeline with a modular design, and presents two unique blocks of
Hierarchical Relation Tree (HRTree) construction and Target-adaptive Context
Aggregation. More specific, our HRTree first provides an adpative structure for
organizing possible relation candidates efficiently, and guides context
aggregation module to effectively capture spatio-temporal structure
information. Then, we obtain a contextualized feature representation for each
relation candidate and build a classification head to recognize its relation
category. Finally, we provide a simple temporal association strategy to track
TRACE detected results to yield the video-level VidSGG. We perform experiments
on two VidSGG benchmarks: ImageNet-VidVRD and Action Genome, and the results
demonstrate that our TRACE achieves the state-of-the-art performance. The code
and models are made available at \url{https://github.com/MCG-NJU/TRACE}.
- Abstract(参考訳): 本稿では,高レベル理解タスクのための構造化ビデオ表現として機能するビデオシーングラフ生成(vidsgg)の課題について述べる。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより、このタスクを検知・追跡する新しいパラダイムを提案する。
具体的には,関係認識のための時空間情報を取得することを目的とした,フレームレベル VidSGG の効率的な手法を,TRACE ( {\em Target Adaptive Context Aggregation Network) と呼ぶ。
我々のTRACEフレームワークはモジュール設計でVidSGGパイプラインを合理化し、階層関係木(HRTree)の構築とターゲット適応コンテキスト集約の2つのユニークなブロックを提示する。
より具体的には、hrtreeはまず、可能な関係候補を効率的に整理するためのadpative構造を提供し、コンテキストアグリゲーションモジュールをガイドし、時空間構造情報を効果的にキャプチャします。
次に,各関係候補に対する文脈化特徴表現を取得し,その関係カテゴリを認識するための分類ヘッドを構築する。
最後に、TRACE検出結果を追跡し、ビデオレベルのVidSGGを得るための簡単な時間的アソシエーション戦略を提案する。
我々は、ImageNet-VidVRDとAction Genomeの2つのVidSGGベンチマークで実験を行い、TRACEが最先端のパフォーマンスを達成することを示す。
コードとモデルは \url{https://github.com/MCG-NJU/TRACE} で公開されている。
関連論文リスト
- Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z) - Structured Sparse R-CNN for Direct Scene Graph Generation [16.646937866282922]
本稿では,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,疎結合で統一された関係検出フレームワークを提案する。
提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。
我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-06-21T02:24:20Z) - Structured Co-reference Graph Attention for Video-grounded Dialogue [17.797726722637634]
Structured Co-Reference Graph Attention (SCGA) は、与えられたビデオに関する質問に対する解答シーケンスを解読するために提示される。
実験の結果、SCGAは2つのベンチマークで他の最先端の対話システムよりも優れていた。
論文 参考訳(メタデータ) (2021-03-24T17:36:33Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。