論文の概要: Action-Agnostic Point-Level Supervision for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2412.21205v1
- Date: Mon, 30 Dec 2024 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:41.154748
- Title: Action-Agnostic Point-Level Supervision for Temporal Action Detection
- Title(参考訳): 時間的行動検出のための行動非依存のポイントレベルスーパービジョン
- Authors: Shuhei M. Yoshida, Takashi Shibata, Makoto Terao, Takayuki Okatani, Masashi Sugiyama,
- Abstract要約: そこで本研究では,光注釈付きデータセットを用いた時間的行動検出のためのアクション非依存のポイントレベル監視を提案する。
提案手法では,ビデオフレームのごく一部を教師なしの方法でサンプリングし,人間のアノテータに提示し,そのフレームにアクションカテゴリをラベル付けする。
トリミングされていないビデオですべてのアクションインスタンスを検索するアノテータを必要とするポイントレベルの監視とは異なり、アノテートするフレームは人間の介入なしに選択される。
- 参考スコア(独自算出の注目度): 55.86569092972912
- License:
- Abstract: We propose action-agnostic point-level (AAPL) supervision for temporal action detection to achieve accurate action instance detection with a lightly annotated dataset. In the proposed scheme, a small portion of video frames is sampled in an unsupervised manner and presented to human annotators, who then label the frames with action categories. Unlike point-level supervision, which requires annotators to search for every action instance in an untrimmed video, frames to annotate are selected without human intervention in AAPL supervision. We also propose a detection model and learning method to effectively utilize the AAPL labels. Extensive experiments on the variety of datasets (THUMOS '14, FineAction, GTEA, BEOID, and ActivityNet 1.3) demonstrate that the proposed approach is competitive with or outperforms prior methods for video-level and point-level supervision in terms of the trade-off between the annotation cost and detection performance.
- Abstract(参考訳): 本稿では,時間的行動検出のための行動非依存点レベル(AAPL)監視手法を提案する。
提案手法では,ビデオフレームのごく一部を教師なしの方法でサンプリングし,人間のアノテータに提示し,そのフレームにアクションカテゴリをラベル付けする。
アントリミングビデオ内のすべてのアクションインスタンスを検索するアノテータを必要とするポイントレベルの監視とは異なり、アノテートするフレームはAAPLの監督に人間の介入なしに選択される。
また,AAPLラベルを有効活用するための検出モデルと学習手法を提案する。
様々なデータセット(THUMOS '14, FineAction, GTEA, BEOID, ActivityNet 1.3)の広範な実験により,提案手法はアノテーションコストと検出性能のトレードオフの観点から,ビデオレベルおよびポイントレベルの監視方法と競合するか,あるいは比較した場合に優れていることが示された。
関連論文リスト
- What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Active Pointly-Supervised Instance Segmentation [106.38955769817747]
アクティブポイント制御型インスタンスセグメンテーション(APIS)という,経済的なアクティブな学習環境を提案する。
APISはボックスレベルのアノテーションから始まり、ボックス内のポイントを反復的にサンプリングし、オブジェクトに落ちているかどうかを問う。
これらの戦略で開発されたモデルは、挑戦的なMS-COCOデータセットに対して一貫したパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2022-07-23T11:25:24Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:28Z) - Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting [22.86745487695168]
マルチインスタンスとマルチラベル学習に基づくベースラインを提案します。
本稿では,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-01-21T11:59:47Z) - Temporal Action Detection with Multi-level Supervision [116.55596693897388]
本稿では,ラベル付きデータとラベルなしデータを組み合わせたSemi-supervised Action Detection (SSAD)タスクを紹介する。
半教師付き分類タスクから直接適応したSSADベースラインの異なるタイプのエラーを解析する。
我々は,弱いラベル付きデータをSSADに組み込んで,3段階の監視レベルを持つOmni-supervised Action Detection (OSAD)を提案する。
論文 参考訳(メタデータ) (2020-11-24T04:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。