論文の概要: HAtt-Flow: Hierarchical Attention-Flow Mechanism for Group Activity
Scene Graph Generation in Videos
- arxiv url: http://arxiv.org/abs/2312.07740v1
- Date: Tue, 28 Nov 2023 16:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:53:02.994401
- Title: HAtt-Flow: Hierarchical Attention-Flow Mechanism for Group Activity
Scene Graph Generation in Videos
- Title(参考訳): HAtt-Flow:ビデオにおけるグループ活動シーングラフ生成のための階層的注意フロー機構
- Authors: Naga VS Raviteja Chappa, Pha Nguyen, Thi Hoang Ngan Le and Khoa Luu
- Abstract要約: Group Activity Scene Graph (GASG) の生成は、コンピュータビジョンにおいて難しい課題である。
我々は,JRDBデータセットを拡張したGASGデータセットを,textitAppearance, Interaction, position, Relationship, situation属性を含むニュアンスなアノテーションで導入する。
我々はまた,GASG性能を向上させるために,フローネットワーク理論に根ざした革新的アプローチである textbfHierarchical textbfAttention-textbfFlow (HAtt-Flow) 機構を導入する。
- 参考スコア(独自算出の注目度): 8.10024991952397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Activity Scene Graph (GASG) generation is a challenging task in
computer vision, aiming to anticipate and describe relationships between
subjects and objects in video sequences. Traditional Video Scene Graph
Generation (VidSGG) methods focus on retrospective analysis, limiting their
predictive capabilities. To enrich the scene understanding capabilities, we
introduced a GASG dataset extending the JRDB dataset with nuanced annotations
involving \textit{Appearance, Interaction, Position, Relationship, and
Situation} attributes. This work also introduces an innovative approach,
\textbf{H}ierarchical \textbf{Att}ention-\textbf{Flow} (HAtt-Flow) Mechanism,
rooted in flow network theory to enhance GASG performance. Flow-Attention
incorporates flow conservation principles, fostering competition for sources
and allocation for sinks, effectively preventing the generation of trivial
attention. Our proposed approach offers a unique perspective on attention
mechanisms, where conventional "values" and "keys" are transformed into sources
and sinks, respectively, creating a novel framework for attention-based models.
Through extensive experiments, we demonstrate the effectiveness of our
Hatt-Flow model and the superiority of our proposed Flow-Attention mechanism.
This work represents a significant advancement in predictive video scene
understanding, providing valuable insights and techniques for applications that
require real-time relationship prediction in video data.
- Abstract(参考訳): グループアクティビティシーングラフ(GASG)の生成はコンピュータビジョンにおいて困難な課題であり、ビデオシーケンス中の被写体とオブジェクトの関係を予測し記述することを目的としている。
従来のビデオシーングラフ生成(vidsgg)手法は振り返り分析にフォーカスし、予測能力を制限する。
シーン理解機能を強化するため,我々は,<textit{Appearance, Interaction, position, Relationship, and situation}属性を含むニュアンスなアノテーションで,JRDBデータセットを拡張したGASGデータセットを導入した。
この研究は、GASG性能を高めるためにフローネットワーク理論に根ざした革新的アプローチである \textbf{H}ierarchical \textbf{Att}ention-\textbf{Flow}(HAtt-Flow)メカニズムも導入した。
Flow-Attentionは、フロー保護の原則を取り入れ、ソースの競争を奨励し、シンクの割り当てを奨励する。
提案手法は,従来の「値」と「キー」をそれぞれソースとシンクに変換し,アテンションベースモデルのための新たなフレームワークを作成する,アテンションメカニズムに関するユニークな視点を提供する。
広範な実験により, hatt-flowモデルの有効性と提案するflow-attention機構の優位性を実証した。
この研究は、ビデオデータのリアルタイム関係予測を必要とするアプリケーションに有用な洞察と技術を提供する、予測ビデオシーン理解の大幅な進歩を表している。
関連論文リスト
- Revealing Decurve Flows for Generalized Graph Propagation [108.80758541147418]
本研究は,有向グラフと重み付きグラフを用いて,m文を一般化した伝播を定義することによって,従来のメッセージパッシング(中心からグラフ学習)の限界に対処する。
この分野ではじめて、データセットにおける学習された伝播パターンの予備的な探索を含む。
論文 参考訳(メタデータ) (2024-02-13T14:13:17Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Self-Supervised Relation Alignment for Scene Graph Generation [44.3983804479146]
シーングラフ生成性能を改善するために,自己教師付きリレーショナルアライメントの正規化を導入する。
提案されたアライメントは一般的なもので、既存のシーングラフ生成フレームワークと組み合わせることができる。
本稿では,この自己教師付きリレーショナルアライメントと2つのシーングラフ生成アーキテクチャの有効性について述べる。
論文 参考訳(メタデータ) (2023-02-02T20:34:13Z) - Attention in Attention: Modeling Context Correlation for Efficient Video
Classification [47.938500236792244]
本稿では,注目度向上のためのAIA手法を提案する。
ビデオ特徴コンテキストを,グローバル平均およびプール操作を伴う特定の軸に沿って集約されたダイナミックスとしてインスタンス化する。
注意ユニット内の全ての計算処理は、プール化された次元に作用し、計算コストの増大は極めて少ない。
論文 参考訳(メタデータ) (2022-04-20T08:37:52Z) - Deepened Graph Auto-Encoders Help Stabilize and Enhance Link Prediction [11.927046591097623]
リンク予測は、浅層グラフオートエンコーダ(GAE)アーキテクチャの1層または2層に基づく現在の最先端モデルを用いて、比較的未研究のグラフ学習タスクである。
本論文では,浅いGAEと変動GAEしか使用できないリンク予測の現在の手法の限界に対処することに焦点をあてる。
提案手法はGAEのアーキテクチャに標準オートエンコーダ(AE)を革新的に組み込んでおり、標準AEは隣接情報とノード機能をシームレスに統合することで必要不可欠な低次元表現を学習する。
論文 参考訳(メタデータ) (2021-03-21T14:43:10Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。