論文の概要: Deep Motion Prior for Weakly-Supervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2108.05607v1
- Date: Thu, 12 Aug 2021 08:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 23:57:39.241659
- Title: Deep Motion Prior for Weakly-Supervised Temporal Action Localization
- Title(参考訳): 弱い時間的行動定位に先立つ深部運動
- Authors: Meng Cao, Can Zhang, Long Chen, Mike Zheng Shou, Yuexian Zou
- Abstract要約: Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルだけで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
現在、最先端のWSTALメソッドのほとんどは、Multi-Instance Learning (MIL)パイプラインに従っています。
既存の手法では,1)動作情報の不十分な使用,2)広汎なクロスエントロピートレーニング損失の相容れない2つの重要な欠点が指摘されている。
- 参考スコア(独自算出の注目度): 35.25323276744999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Temporal Action Localization (WSTAL) aims to localize
actions in untrimmed videos with only video-level labels. Currently, most
state-of-the-art WSTAL methods follow a Multi-Instance Learning (MIL) pipeline:
producing snippet-level predictions first and then aggregating to the
video-level prediction. However, we argue that existing methods have overlooked
two important drawbacks: 1) inadequate use of motion information and 2) the
incompatibility of prevailing cross-entropy training loss. In this paper, we
analyze that the motion cues behind the optical flow features are complementary
informative. Inspired by this, we propose to build a context-dependent motion
prior, termed as motionness. Specifically, a motion graph is introduced to
model motionness based on the local motion carrier (e.g., optical flow). In
addition, to highlight more informative video snippets, a motion-guided loss is
proposed to modulate the network training conditioned on motionness scores.
Extensive ablation studies confirm that motionness efficaciously models
action-of-interest, and the motion-guided loss leads to more accurate results.
Besides, our motion-guided loss is a plug-and-play loss function and is
applicable with existing WSTAL methods. Without loss of generality, based on
the standard MIL pipeline, our method achieves new state-of-the-art performance
on three challenging benchmarks, including THUMOS'14, ActivityNet v1.2 and
v1.3.
- Abstract(参考訳): Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルのみを持つ未編集ビデオにおけるアクションのローカライズを目的としている。
現在、最先端のWSTALメソッドのほとんどは、まずスニペットレベルの予測を生成し、次にビデオレベルの予測に集約するマルチインスタンス学習(MIL)パイプラインに従っています。
しかし, 既存の手法では, 1) 動作情報の不適切な使用, 2) 先行するクロスエントロピー訓練の損失の非互換性の2つの重要な欠点を見落としている。
本稿では,光学的流れの特徴の背後にある動きの手がかりが相補的な情報であることを示す。
これに触発されて、動作性と呼ばれる文脈依存的な動きを事前に構築することを提案する。
具体的には、局所運動キャリア(例えば光の流れ)に基づいて動きをモデル化するために動きグラフを導入する。
さらに、より情報的なビデオスニペットを強調するために、運動性スコアに基づくネットワークトレーニングを変調する動き誘導損失を提案する。
広範囲にわたるアブレーション研究により、運動性は利害行為を効果的にモデル化し、運動誘導損失はより正確な結果をもたらすことが確認された。
また,動作誘導損失はプラグアンドプレイ損失関数であり,既存のWSTAL法にも適用可能である。
標準のMILパイプラインをベースとした一般性を失うことなく、THUMOS'14、ActivityNet v1.2、v1.3を含む3つの挑戦的なベンチマークにおいて、新しい最先端性能を実現する。
関連論文リスト
- Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Motion Guided 3D Pose Estimation from Videos [81.14443206968444]
本研究では,2次元ポーズから1次元の人物ポーズ推定を行う問題に対して,運動損失と呼ばれる新たな損失関数を提案する。
運動損失の計算では、ペアワイズ・モーション・エンコーディング(ペアワイズ・モーション・エンコーディング)と呼ばれる単純なキーポイント・モーションの表現が導入された。
UGCN(U-shaped GCN)と呼ばれる新しいグラフ畳み込みネットワークアーキテクチャを設計し,短期および長期の動作情報の両方をキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T06:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。