論文の概要: Exploring the Temporal Consistency for Point-Level Weakly-Supervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2602.05718v1
- Date: Thu, 05 Feb 2026 14:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.981908
- Title: Exploring the Temporal Consistency for Point-Level Weakly-Supervised Temporal Action Localization
- Title(参考訳): 点レベル弱教師付き時間的行動定位のための時間的一貫性の探索
- Authors: Yunchuan Ma, Laiyun Qing, Guorong Li, Yuqing Liu, Yuankai Qi, Qingming Huang,
- Abstract要約: ポイント教師付きテンポラルアクションローカライゼーション(PTAL)は、軽快なフレームアノテートパラダイム(textiti.e.、アクションインスタンスごとに1フレームのみをラベル付けする)を採用して、教師なしビデオ内のアクションインスタンスを見つけるようモデルを訓練する。
既存のアプローチのほとんどは、アクションのフレーム間の時間的関係を明確にモデル化することなく、ポイントトリミングされたスニペットレベルの分類だけでモデルのタスクヘッドを設計する。
本稿では,行動ローカライゼーションのための時間的理解能力を高めるために,ポイントインスペクションを完全に活用するマルチタスク学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.80402022104074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point-supervised Temporal Action Localization (PTAL) adopts a lightly frame-annotated paradigm (\textit{i.e.}, labeling only a single frame per action instance) to train a model to effectively locate action instances within untrimmed videos. Most existing approaches design the task head of models with only a point-supervised snippet-level classification, without explicit modeling of understanding temporal relationships among frames of an action. However, understanding the temporal relationships of frames is crucial because it can help a model understand how an action is defined and therefore benefits localizing the full frames of an action. To this end, in this paper, we design a multi-task learning framework that fully utilizes point supervision to boost the model's temporal understanding capability for action localization. Specifically, we design three self-supervised temporal understanding tasks: (i) Action Completion, (ii) Action Order Understanding, and (iii) Action Regularity Understanding. These tasks help a model understand the temporal consistency of actions across videos. To the best of our knowledge, this is the first attempt to explicitly explore temporal consistency for point supervision action localization. Extensive experimental results on four benchmark datasets demonstrate the effectiveness of the proposed method compared to several state-of-the-art approaches.
- Abstract(参考訳): PTAL(Point-supervised Temporal Action Localization)は、軽量なフレームアノテートパラダイム(\textit{i.e.})を採用し、アクションインスタンスごとに1フレームだけをラベル付けすることで、未トリミングビデオ内のアクションインスタンスを効果的に特定するモデルをトレーニングする。
既存のほとんどのアプローチは、アクションのフレーム間の時間的関係を明確にモデル化することなく、ポイント教師付きスニペットレベルの分類のみでモデルのタスクヘッドを設計する。
しかし、フレームの時間的関係を理解することは、モデルがアクションをどのように定義するかを理解するのに役立ち、従ってアクションの全フレームをローカライズするのに役立つため、非常に重要である。
そこで本研究では,行動ローカライゼーションのための時間的理解能力を高めるために,ポイントインスペクションを完全に活用したマルチタスク学習フレームワークを設計する。
具体的には,3つの自己監督型時間的理解タスクを設計する。
(i)動作完了
(二)行動命令の理解、及び
三 行動規則的理解
これらのタスクは、ビデオ間でのアクションの時間的一貫性を理解するのに役立つ。
我々の知る限りでは、これはポイント監督アクションローカライゼーションのための時間的一貫性を明示的に探求する最初の試みである。
4つのベンチマークデータセットの大規模な実験結果から,提案手法の有効性が示された。
関連論文リスト
- POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Structured Attention Composition for Temporal Action Localization [99.66510088698051]
マルチモーダル特徴学習の観点から時間的行動ローカライゼーションについて検討する。
従来の注目とは異なり、提案されたモジュールはフレームの注意とモダリティの注意を独立して推測しない。
提案した構造化された注目合成モジュールは、既存のアクションローカライゼーションフレームワークにプラグイン・アンド・プレイモジュールとしてデプロイすることができる。
論文 参考訳(メタデータ) (2022-05-20T04:32:09Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Modeling Multi-Label Action Dependencies for Temporal Action
Localization [53.53490517832068]
実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。
非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。
マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2021-03-04T13:37:28Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。