論文の概要: Slow Motion Matters: A Slow Motion Enhanced Network for Weakly
Supervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2211.11324v1
- Date: Mon, 21 Nov 2022 10:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:59:15.187013
- Title: Slow Motion Matters: A Slow Motion Enhanced Network for Weakly
Supervised Temporal Action Localization
- Title(参考訳): slow motion matters: 弱教師付き時間行動定位のための低速動作強化ネットワーク
- Authors: Weiqi Sun, Rui Su, Qian Yu and Dong Xu
- Abstract要約: 弱い監督された時間的行動ローカライゼーションは、弱い監督情報しか持たない未編集ビデオのアクションをローカライズすることを目的としている。
ビデオのスローモーション情報を正常な速度で探索することは困難である。
スローモーション・エンハンスメント・ネットワーク(SMEN)と呼ばれる新しいフレームワークを提案し、スローモーション・アクションセグメントに対する感度を補正することでWTALネットワークの能力を向上させる。
- 参考スコア(独自算出の注目度): 31.54214885700785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised temporal action localization (WTAL) aims to localize
actions in untrimmed videos with only weak supervision information (e.g.
video-level labels). Most existing models handle all input videos with a fixed
temporal scale. However, such models are not sensitive to actions whose pace of
the movements is different from the ``normal" speed, especially slow-motion
action instances, which complete the movements with a much slower speed than
their counterparts with a normal speed. Here arises the slow-motion blurred
issue: It is hard to explore salient slow-motion information from videos at
``normal" speed. In this paper, we propose a novel framework termed Slow Motion
Enhanced Network (SMEN) to improve the ability of a WTAL network by
compensating its sensitivity on slow-motion action segments. The proposed SMEN
comprises a Mining module and a Localization module. The mining module
generates mask to mine slow-motion-related features by utilizing the
relationships between the normal motion and slow motion; while the localization
module leverages the mined slow-motion features as complementary information to
improve the temporal action localization results. Our proposed framework can be
easily adapted by existing WTAL networks and enable them be more sensitive to
slow-motion actions. Extensive experiments on three benchmarks are conducted,
which demonstrate the high performance of our proposed framework.
- Abstract(参考訳): weakly supervised temporal action localization (wtal) は、弱い監督情報(例えばビデオレベルラベル)しか持たない未トリミングビデオのアクションをローカライズすることを目的としている。
既存のモデルでは、すべての入力ビデオを一定時間スケールで処理する。
しかし、このようなモデルでは、動きのペースが「通常」の速度、特に「通常」の速度よりもはるかに遅い速度で動きを完了させるスローモーションのアクションインスタンスと異なるアクションに敏感ではない。ここでは、スローモーションのぼやけた問題が発生する:「通常」の速度でビデオから顕著なスローモーション情報を探索することは困難である。
本稿では,スローモーション・アクション・セグメントの感度を補償することにより,wtalネットワークの能力を向上させるための新しい枠組みであるスローモーション・エンハンスメント・ネットワーク(smen)を提案する。
提案するsmenはマイニングモジュールとローカライゼーションモジュールとからなる。
マイニングモジュールは、通常の動きとスローモーションの関係を利用して、スローモーション関連特徴をマイニングするマスクを生成するが、ローカライゼーションモジュールは、マイニングしたスローモーション特徴を補完情報として活用し、時間的動作ローカライゼーション結果を改善する。
提案するフレームワークは既存のWTALネットワークで容易に適用でき、スローモーション動作に対してより敏感になる。
3つのベンチマークに関する広範囲な実験を行い,提案フレームワークの性能を実証した。
関連論文リスト
- Motion meets Attention: Video Motion Prompts [34.429192862783054]
フレーム差分マップからの動き信号を変調するアテンション機構として,学習可能な傾きとシフトパラメータを持つ修正シグモイド関数を提案する。
このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。
SlowGymやX3D、Timeformerといったモデルに、当社の軽量でプラグアンドプレイのモーションプロンプト層がシームレスに統合されていることが分かりました。
論文 参考訳(メタデータ) (2024-07-03T14:59:46Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts [67.5094490054134]
簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
論文 参考訳(メタデータ) (2024-03-13T05:44:37Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z) - Deep Motion Prior for Weakly-Supervised Temporal Action Localization [35.25323276744999]
Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルだけで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
現在、最先端のWSTALメソッドのほとんどは、Multi-Instance Learning (MIL)パイプラインに従っています。
既存の手法では,1)動作情報の不十分な使用,2)広汎なクロスエントロピートレーニング損失の相容れない2つの重要な欠点が指摘されている。
論文 参考訳(メタデータ) (2021-08-12T08:51:36Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。