論文の概要: Revisiting Anchor Mechanisms for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2008.09837v1
- Date: Sat, 22 Aug 2020 13:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 08:02:55.979170
- Title: Revisiting Anchor Mechanisms for Temporal Action Localization
- Title(参考訳): 時間的行動局在のためのアンカー機構の再検討
- Authors: Le Yang, Houwen Peng, Dingwen Zhang, Jianlong Fu, Junwei Han
- Abstract要約: 本稿では,時間的視点による動作のローカライゼーションを支援するアンカーフリーな動作ローカライゼーションモジュールを提案する。
提案するアンカーフリーモジュールと従来のアンカーベースモジュールを組み合わせることで,A2Netと呼ばれる新しいアクションローカライゼーションフレームワークを提案する。
アンカーフリーモジュールとアンカーベースモジュールの協調はTHUMOS14の最先端技術よりも優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 126.96340233561418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the current action localization methods follow an anchor-based
pipeline: depicting action instances by pre-defined anchors, learning to select
the anchors closest to the ground truth, and predicting the confidence of
anchors with refinements. Pre-defined anchors set prior about the location and
duration for action instances, which facilitates the localization for common
action instances but limits the flexibility for tackling action instances with
drastic varieties, especially for extremely short or extremely long ones. To
address this problem, this paper proposes a novel anchor-free action
localization module that assists action localization by temporal points.
Specifically, this module represents an action instance as a point with its
distances to the starting boundary and ending boundary, alleviating the
pre-defined anchor restrictions in terms of action localization and duration.
The proposed anchor-free module is capable of predicting the action instances
whose duration is either extremely short or extremely long. By combining the
proposed anchor-free module with a conventional anchor-based module, we propose
a novel action localization framework, called A2Net. The cooperation between
anchor-free and anchor-based modules achieves superior performance to the
state-of-the-art on THUMOS14 (45.5% vs. 42.8%). Furthermore, comprehensive
experiments demonstrate the complementarity between the anchor-free and the
anchor-based module, making A2Net simple but effective.
- Abstract(参考訳): 現在のアクションローカライゼーションメソッドのほとんどは、事前に定義されたアンカーによるアクションインスタンスの描写、基底真実に最も近いアンカーの選択の学習、洗練されたアンカーの信頼性の予測など、アンカーベースのパイプラインに従っている。
アクションインスタンスの位置と期間について事前に定義されたアンカーは、一般的なアクションインスタンスのローカライズを容易にするが、特に非常に短いものや非常に長いものに対して、劇的なバリエーションでアクションインスタンスに取り組む柔軟性を制限する。
そこで本研究では,時間的視点による動作の局所化を支援するアンカーフリーなアクションローカライゼーションモジュールを提案する。
具体的には、このモジュールはアクションインスタンスを開始境界と終了境界までの距離のあるポイントとして表現し、アクションのローカライゼーションと持続時間の観点から事前に定義されたアンカー制限を緩和する。
提案するアンカーフリーモジュールは、持続時間が極端に短いか極端に長いアクションインスタンスを予測することができる。
提案するアンカーフリーモジュールと従来のアンカーベースモジュールを組み合わせることで,新たなアクションローカライゼーションフレームワークであるa2netを提案する。
アンカーフリーモジュールとアンカーベースモジュールの協調はTHUMOS14(45.5%対42.8%)の最先端技術よりも優れた性能を達成する。
さらに、アンカーフリーとアンカーベースモジュールの相補性を示す包括的な実験により、A2Netは単純だが効果的である。
関連論文リスト
- Boundary Discretization and Reliable Classification Network for Temporal Action Detection [39.17204328036531]
時間的アクション検出は、アクションカテゴリを認識し、各アクションインスタンスの開始と終了の時間を未トリミングビデオで決定することを目的としている。
混合手法は、アンカーベースとアンカーフリーのアプローチをシームレスにマージすることで、優れたパフォーマンスを実現している。
本稿では,境界離散化と信頼性のある分類モジュールを導入することで,上記の問題に対処する新しい境界離散化・信頼性分類ネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T08:14:24Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action
Localization [42.95186231216036]
効率的な動作位置決めのための粗い動作検出器(CFAD)を提案する。
CFADはまず、ビデオストリームから粗い管時間行動管を推定し、キータイムスタンプに基づいて位置を洗練する。
論文 参考訳(メタデータ) (2020-08-19T08:47:50Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z) - Accurate Temporal Action Proposal Generation with Relation-Aware Pyramid
Network [29.7640925776191]
高精度な時間的行動提案を生成するための関係対応ピラミッドネットワーク(RapNet)を提案する。
RapNetでは、コンテキスト蒸留のための局所的な特徴間の双方向の長距離関係を利用するために、新しいリレーションアウェアモジュールが導入された。
論文 参考訳(メタデータ) (2020-03-09T13:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。