論文の概要: Learning Action Completeness from Points for Weakly-supervised Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2108.05029v1
- Date: Wed, 11 Aug 2021 04:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:31:47.152106
- Title: Learning Action Completeness from Points for Weakly-supervised Temporal
Action Localization
- Title(参考訳): 弱教師付き時間行動定位のためのポイントからの学習行動完全性
- Authors: Pilhyeon Lee, Hyeran Byun
- Abstract要約: 本研究では,各アクションインスタンスに1フレームのラベルを付けるだけで,時間間隔の動作をローカライズする問題に対処する。
本稿では,モデルに対する完全性ガイダンスを提供するために,高密度な擬似ラベルを生成する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.603643098270409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of localizing temporal intervals of actions with only a
single frame label for each action instance for training. Owing to label
sparsity, existing work fails to learn action completeness, resulting in
fragmentary action predictions. In this paper, we propose a novel framework,
where dense pseudo-labels are generated to provide completeness guidance for
the model. Concretely, we first select pseudo background points to supplement
point-level action labels. Then, by taking the points as seeds, we search for
the optimal sequence that is likely to contain complete action instances while
agreeing with the seeds. To learn completeness from the obtained sequence, we
introduce two novel losses that contrast action instances with background ones
in terms of action score and feature similarity, respectively. Experimental
results demonstrate that our completeness guidance indeed helps the model to
locate complete action instances, leading to large performance gains especially
under high IoU thresholds. Moreover, we demonstrate the superiority of our
method over existing state-of-the-art methods on four benchmarks: THUMOS'14,
GTEA, BEOID, and ActivityNet. Notably, our method even performs comparably to
recent fully-supervised methods, at the 6 times cheaper annotation cost. Our
code is available at https://github.com/Pilhyeon.
- Abstract(参考訳): 本研究では,各アクションインスタンスに1フレームのラベルを付けるだけで,時間間隔の動作をローカライズする問題に取り組む。
ラベルの幅のため、既存の作業は動作の完全性を学ぶことができず、断片的な動作予測をもたらす。
本稿では,モデルに対する完全性指導を行うために,密集した擬似ラベルを生成する新しい枠組みを提案する。
具体的には、まず擬似背景点を選択し、ポイントレベルのアクションラベルを補足する。
そして,これらの点を種として取り込むことで,種子と一致しながら,完全な行動事例を含む可能性のある最適な配列を探索する。
得られたシーケンスから完全性を学ぶために、アクションインスタンスとバックグラウンドインスタンスをそれぞれアクションスコアと特徴類似性で対比する2つの新しい損失を導入する。
実験の結果, 完全性誘導は, モデルが完全なアクションインスタンスを見つけるのに有効であることを示し, 特にIoU閾値が高い場合, 高い性能向上をもたらすことがわかった。
さらに, THUMOS'14, GTEA, BEOID, ActivityNetの4つのベンチマークにおいて, 既存の最先端手法よりも優れていることを示す。
特に,本手法はアノテーションコストの6倍のコストで,近年の完全教師付き手法と同等に機能する。
私たちのコードはhttps://github.com/pilhyeon.comで利用可能です。
関連論文リスト
- FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Action Sensitivity Learning for Temporal Action Localization [35.65086250175736]
本稿では,時間的行動ローカライゼーションの課題に取り組むために,行動感性学習フレームワーク(ASL)を提案する。
まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。
各フレームの動作感度に基づいて、アクション認識フレームを正のペアとしてサンプリングし、アクション非関連フレームを除去する機能を強化するために、アクション感性コントラスト損失を設計する。
論文 参考訳(メタデータ) (2023-05-25T04:19:14Z) - Improving Weakly Supervised Temporal Action Localization by Bridging
Train-Test Gap in Pseudo Labels [38.35756338815097]
効果的な解法として機能する擬似ラベル法は近年広く研究されている。
既存の方法は、トレーニング中に擬似ラベルを生成し、異なるパイプラインや設定下でのテスト中に予測する。
予測動作境界から高品質な擬似ラベルを生成することを提案する。
論文 参考訳(メタデータ) (2023-04-17T03:47:41Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Weakly-Supervised Temporal Action Detection for Fine-Grained Videos with
Hierarchical Atomic Actions [13.665489987620724]
ビデオにおける微粒な時間的行動検出の弱さに対処する。
本稿では、データから自動的に検出される再利用可能なアトミックアクションの組み合わせとしてアクションをモデル化する。
提案手法は,クリップレベル,アトミックアクションレベル,ファインアクションクラスレベル,粗いアクションクラスレベルという4つのレベルの視覚的表現階層を構築し,各レベルを監督する。
論文 参考訳(メタデータ) (2022-07-24T20:32:24Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。