論文の概要: ACGNet: Action Complement Graph Network for Weakly-supervised Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2112.10977v1
- Date: Tue, 21 Dec 2021 04:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 23:50:24.173530
- Title: ACGNet: Action Complement Graph Network for Weakly-supervised Temporal
Action Localization
- Title(参考訳): ACGNet:弱教師付き時間行動定位のための行動補完グラフネットワーク
- Authors: Zichen Yang, Jie Qin, Di Huang
- Abstract要約: 教師なしビデオにおける弱いトリミング時間的行動ローカライゼーション(WTAL)は,ビデオレベルラベルのみが利用可能であるため,実用的ではあるが困難な課題となっている。
既存のアプローチは、通常、空間的不完全性と時間的不整合に苦しむ、既成のセグメントレベルの特徴を利用する。
本稿では,単純なグラフ畳み込みネットワークを用いてセグメントレベルの表現を強化することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 39.377289930528555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised temporal action localization (WTAL) in untrimmed videos has
emerged as a practical but challenging task since only video-level labels are
available. Existing approaches typically leverage off-the-shelf segment-level
features, which suffer from spatial incompleteness and temporal incoherence,
thus limiting their performance. In this paper, we tackle this problem from a
new perspective by enhancing segment-level representations with a simple yet
effective graph convolutional network, namely action complement graph network
(ACGNet). It facilitates the current video segment to perceive spatial-temporal
dependencies from others that potentially convey complementary clues,
implicitly mitigating the negative effects caused by the two issues above. By
this means, the segment-level features are more discriminative and robust to
spatial-temporal variations, contributing to higher localization accuracies.
More importantly, the proposed ACGNet works as a universal module that can be
flexibly plugged into different WTAL frameworks, while maintaining the
end-to-end training fashion. Extensive experiments are conducted on the
THUMOS'14 and ActivityNet1.2 benchmarks, where the state-of-the-art results
clearly demonstrate the superiority of the proposed approach.
- Abstract(参考訳): ビデオレベルのラベルのみが利用可能であるため、未トリミングビデオにおける弱教師付き時間的行動ローカライゼーション(WTAL)が実用的だが困難な課題として浮上している。
既存のアプローチは通常、空間的不完全性と時間的不整合に悩まされ、性能が制限される、オフザシェルフセグメントレベルの特徴を利用する。
本稿では,単純なグラフ畳み込みネットワーク,すなわちアクション補完グラフネットワーク(ACGNet)を用いてセグメントレベルの表現を強化することで,新たな視点からこの問題に取り組む。
現行のビデオセグメントは、他のビデオから空間的-時間的依存性を知覚し、補足的な手がかりを伝達し、上記の2つの問題によって生じる悪影響を暗黙的に緩和する。
つまり、セグメントレベルの特徴はより差別的で、時空間の変動に対して頑健であり、より高い局所化精度に寄与する。
さらに重要なのは、提案されたACGNetは、エンドツーエンドのトレーニングスタイルを維持しながら、さまざまなWTALフレームワークに柔軟にプラグインできるユニバーサルモジュールとして機能することです。
THUMOS'14とActivityNet1.2のベンチマークでは、最先端の結果が提案手法の優位性を示している。
関連論文リスト
- AttenScribble: Attentive Similarity Learning for Scribble-Supervised
Medical Image Segmentation [5.8447004333496855]
本稿では,単純かつ効果的なスクリブル教師あり学習フレームワークを提案する。
我々は、任意の完全畳み込みネットワーク(FCN)バックボーンの内部特徴層の上に、接続可能な空間自己アテンションモジュールを作成する。
この注意深い類似性は、セグメンテーション予測と視覚親和性の一貫性を課する新たな正規化損失をもたらす。
論文 参考訳(メタデータ) (2023-12-11T18:42:18Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - DDG-Net: Discriminability-Driven Graph Network for Weakly-supervised
Temporal Action Localization [40.521076622370806]
本稿では、曖昧なスニペットとよく設計された接続を持つ識別的スニペットを明示的にモデル化した識別可能性駆動グラフネットワーク(DDG-Net)を提案する。
THUMOS14とActivityNet1.2ベンチマークの実験では、DDG-Netの有効性が示されている。
論文 参考訳(メタデータ) (2023-07-31T05:48:39Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021 [33.840281113206444]
本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-07-27T06:18:21Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Video Self-Stitching Graph Network for Temporal Action Localization [54.1254121061467]
ビデオセルフスティッチグラフネットワーク(VSGN)と呼ばれるマルチレベルクロススケールソリューションを提案する。
VSGNにはビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)という2つの重要なコンポーネントがあります。
我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。
論文 参考訳(メタデータ) (2020-11-30T07:44:52Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。