論文の概要: Progressive Cross-Stream Cooperation in Spatial and Temporal Domain for Action Localization
- arxiv url: http://arxiv.org/abs/1905.11575v2
- Date: Tue, 24 Jun 2025 02:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 15:26:09.915905
- Title: Progressive Cross-Stream Cooperation in Spatial and Temporal Domain for Action Localization
- Title(参考訳): 行動局所化のための空間領域と時間領域における進行的クロスストリーム協調
- Authors: Rui Su, Dong Xu, Luping Zhou, Wanli Ouyang,
- Abstract要約: S時間的行動局所化は、空間的局所化、行動分類、時間的局所化の3つのレベルからなる。
上記の3つの課題をすべて改善する,新たなプログレッシブなクロスストリーム協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 84.73693644211596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal action localization consists of three levels of tasks: spatial localization, action classification, and temporal localization. In this work, we propose a new progressive cross-stream cooperation (PCSC) framework that improves all three tasks above. The basic idea is to utilize both spatial region (resp., temporal segment proposals) and features from one stream (i.e., the Flow/RGB stream) to help another stream (i.e., the RGB/Flow stream) to iteratively generate better bounding boxes in the spatial domain (resp., temporal segments in the temporal domain). In this way, not only the actions could be more accurately localized both spatially and temporally, but also the action classes could be predicted more precisely. Specifically, we first combine the latest region proposals (for spatial detection) or segment proposals (for temporal localization) from both streams to form a larger set of labelled training samples to help learn better action detection or segment detection models. Second, to learn better representations, we also propose a new message passing approach to pass information from one stream to another stream, which also leads to better action detection and segment detection models. By first using our newly proposed PCSC framework for spatial localization at the frame-level and then applying our temporal PCSC framework for temporal localization at the tube-level, the action localization results are progressively improved at both the frame level and the video level. Comprehensive experiments on two benchmark datasets UCF-101-24 and J-HMDB demonstrate the effectiveness of our newly proposed approaches for spatio-temporal action localization in realistic scenarios.
- Abstract(参考訳): 時空間的局所化は空間的局所化、行動分類、時間的局所化の3段階からなる。
そこで本研究では,上記の3つの課題をすべて改善する,新たなプログレッシブ・クロスストリーム協調(PCSC)フレームワークを提案する。
基本的な考え方は、空間領域(時間セグメントの提案)と1つのストリーム(すなわち、フロー/RGBストリーム)の機能の両方を利用して、別のストリーム(すなわち、RGB/Flowストリーム)が空間領域(時間領域の時間セグメントの参照)でより良いバウンディングボックスを反復的に生成できるようにすることである。
このようにして、アクションは空間的にも時間的にもより正確にローカライズできるだけでなく、アクションクラスをより正確に予測できる。
具体的には、まず、両方のストリームから最新の領域の提案(空間的検出のための)またはセグメントの提案(時間的局所化のための)を組み合わせて、より大きなラベル付きトレーニングサンプルを作成し、より良いアクション検出やセグメント検出モデルを学ぶのに役立つ。
第二に、より良い表現を学習するために、あるストリームから別のストリームに情報を渡す新しいメッセージパッシングアプローチを提案する。
まず、新たに提案したPCSCフレームワークを用いて、フレームレベルでの空間的局所化を行い、次いで、時間的PCSCフレームワークをチューブレベルでの時間的局所化に適用することにより、フレームレベルとビデオレベルの両方において、アクションローカライゼーション結果が徐々に改善される。
UCF-101-24とJ-HMDBの2つのベンチマークデータセットに関する総合的な実験は、現実シナリオにおける時空間の局所化に関する新たなアプローチの有効性を実証している。
関連論文リスト
- Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z) - CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action
Localization [42.95186231216036]
効率的な動作位置決めのための粗い動作検出器(CFAD)を提案する。
CFADはまず、ビデオストリームから粗い管時間行動管を推定し、キータイムスタンプに基づいて位置を洗練する。
論文 参考訳(メタデータ) (2020-08-19T08:47:50Z) - Exploring Rich and Efficient Spatial Temporal Interactions for Real Time
Video Salient Object Detection [87.32774157186412]
メインストリーム方式は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。
本稿では,このような改善を実現するための時間的ネットワークを提案する。
提案手法は実装が簡単で,50FPSで高精細度をリアルタイムに検出できる。
論文 参考訳(メタデータ) (2020-08-07T03:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。