論文の概要: Unified Graph Structured Models for Video Understanding
- arxiv url: http://arxiv.org/abs/2103.15662v1
- Date: Mon, 29 Mar 2021 14:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:49:59.644701
- Title: Unified Graph Structured Models for Video Understanding
- Title(参考訳): 映像理解のための統一グラフ構造化モデル
- Authors: Anurag Arnab, Chen Sun, Cordelia Schmid
- Abstract要約: リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
- 参考スコア(独自算出の注目度): 93.72081456202672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate video understanding involves reasoning about the relationships
between actors, objects and their environment, often over long temporal
intervals. In this paper, we propose a message passing graph neural network
that explicitly models these spatio-temporal relations and can use explicit
representations of objects, when supervision is available, and implicit
representations otherwise. Our formulation generalises previous structured
models for video understanding, and allows us to study how different design
choices in graph structure and representation affect the model's performance.
We demonstrate our method on two different tasks requiring relational reasoning
in videos -- spatio-temporal action detection on AVA and UCF101-24, and video
scene graph classification on the recent Action Genome dataset -- and achieve
state-of-the-art results on all three datasets. Furthermore, we show
quantitatively and qualitatively how our method is able to more effectively
model relationships between relevant entities in the scene.
- Abstract(参考訳): 正確なビデオ理解は、しばしば長い時間間隔で、アクター、オブジェクト、環境間の関係を推論することを伴う。
本稿では,これらの時空間関係を明示的にモデル化し,監視可能であればオブジェクトの明示的な表現を,それ以外の場合には暗黙表現を使用できるメッセージパッシンググラフニューラルネットワークを提案する。
提案方式では,従来の映像理解のための構造化モデルを一般化し,グラフ構造と表現における異なる設計選択がモデルの性能にどのように影響するかを検証できる。
本稿では,ビデオ中の関係推論を必要とする2つのタスク,すなわちAVAとUCF101-24の時空間的行動検出,および最近のAction Genomeデータセットの映像シーングラフ分類について示す。
さらに,シーン内の関連エンティティ間の関係をより効果的にモデル化する方法を定量的かつ定性的に示す。
関連論文リスト
- Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Towards Scene Graph Anticipation [10.678727237318503]
SGA(Scene Graph Precipation)の課題について紹介する。
我々は、オブジェクト間の将来のペアワイズ関係を予測するために、最先端のシーングラフ生成手法をベースラインとして適用する。
SceneSayerでは、オブジェクト中心の関係表現を利用して、観察されたビデオフレームを推論し、オブジェクト間の関係の進化をモデル化する。
論文 参考訳(メタデータ) (2024-03-07T21:08:51Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos [0.40778318140713216]
本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
論文 参考訳(メタデータ) (2022-09-13T00:01:23Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。