論文の概要: Learning to Localize Actions from Moments
- arxiv url: http://arxiv.org/abs/2008.13705v1
- Date: Mon, 31 Aug 2020 16:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 07:20:24.907665
- Title: Learning to Localize Actions from Moments
- Title(参考訳): モーメントからアクションをローカライズする学習
- Authors: Fuchen Long and Ting Yao and Zhaofan Qiu and Xinmei Tian and Jiebo Luo
and Tao Mei
- Abstract要約: 本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
- 参考スコア(独自算出の注目度): 153.54638582696128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the knowledge of action moments (i.e., trimmed video clips that each
contains an action instance), humans could routinely localize an action
temporally in an untrimmed video. Nevertheless, most practical methods still
require all training videos to be labeled with temporal annotations (action
category and temporal boundary) and develop the models in a fully-supervised
manner, despite expensive labeling efforts and inapplicable to new categories.
In this paper, we introduce a new design of transfer learning type to learn
action localization for a large set of action categories, but only on action
moments from the categories of interest and temporal annotations of untrimmed
videos from a small set of action classes. Specifically, we present Action
Herald Networks (AherNet) that integrate such design into an one-stage action
localization framework. Technically, a weight transfer function is uniquely
devised to build the transformation between classification of action moments or
foreground video segments and action localization in synthetic contextual
moments or untrimmed videos. The context of each moment is learnt through the
adversarial mechanism to differentiate the generated features from those of
background in untrimmed videos. Extensive experiments are conducted on the
learning both across the splits of ActivityNet v1.3 and from THUMOS14 to
ActivityNet v1.3. Our AherNet demonstrates the superiority even comparing to
most fully-supervised action localization methods. More remarkably, we train
AherNet to localize actions from 600 categories on the leverage of action
moments in Kinetics-600 and temporal annotations from 200 classes in
ActivityNet v1.3. Source code and data are available at
\url{https://github.com/FuchenUSTC/AherNet}.
- Abstract(参考訳): アクションモーメントの知識(つまり、アクションインスタンスを含むトリミングされたビデオクリップ)により、人間は、トリミングされていないビデオで時間的にアクションをローカライズすることができる。
しかしながら、ほとんどの実践的な手法は、高価なラベル付けの努力と新しいカテゴリには適用できないにもかかわらず、時間的アノテーション(アクションカテゴリと時間的境界)でラベル付けされ、完全に監督された方法でモデルを開発する必要がある。
本稿では,大規模なアクションカテゴリのアクションローカライゼーションを学習するトランスファーラーニングタイプの新しいデザインを提案するが,興味のカテゴリから得られたアクションモーメントと,小さなアクションクラスから得られた未トリミングビデオの時間的アノテーションに限る。
具体的には、そのような設計を1段階のアクションローカライゼーションフレームワークに統合するアクションヘラルドネットワーク(AherNet)を提案する。
技術的には、重み伝達関数は、アクションモーメントまたは前景ビデオセグメントの分類と、合成コンテキストモーメントまたは未トリミングビデオにおけるアクションローカライゼーションの間の変換を構築するために一意に考案される。
各モーメントのコンテキストは、非トリミングビデオの背景と生成された特徴を区別する対向メカニズムを通じて学習される。
ActivityNet v1.3 の分割と THUMOS14 から ActivityNet v1.3 への広範な学習実験が行われている。
我々のAherNetは、ほとんど完全に教師されたアクションローカライゼーション手法と比較しても優位性を示している。
さらに、Kinetics-600のアクションモーメントの活用とActivityNet v1.3の200クラスの時間アノテーションに基づいて、600のカテゴリからアクションをローカライズするようにAherNetを訓練します。
ソースコードとデータは \url{https://github.com/fuchenustc/ahernet} で入手できる。
関連論文リスト
- Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Few-Shot Temporal Action Localization with Query Adaptive Transformer [105.84328176530303]
TALの作品は、セグメントレベルのアノテーションを徹底した、多数のトレーニングビデオに依存している。
Few-shot TALは、モデルを1つのビデオで表される新しいクラスに適応させることを目的としている。
論文 参考訳(メタデータ) (2021-10-20T13:18:01Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。