論文の概要: OZ-TAL: Online Zero-Shot Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2605.09976v1
- Date: Mon, 11 May 2026 04:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.525382
- Title: OZ-TAL: Online Zero-Shot Temporal Action Localization
- Title(参考訳): OZ-TAL:オンラインゼロショットテンポラルアクションローカライゼーション
- Authors: Chaolei Han, Hongsong Wang, Xin Gong, Jie Gui,
- Abstract要約: オンラインゼロショット・テンポラル・アクション・ローカライゼーション(OZ-TAL)は、これまで目に見えない動作をオンラインで検出することを目的としている。
本稿では,VLM(Vilge-Language Models)を利用した学習自由フレームワークを提案する。
本手法は,オフラインおよびオンラインのゼロショット設定において,既存の最先端手法よりも大幅に優れる。
- 参考スコア(独自算出の注目度): 25.6684938934994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Temporal Action Localization (On-TAL) aims to detect the occurrence time and category of actions in untrimmed streaming videos immediately upon their completion. Recent advancements in this field focus on developing more sophisticated frameworks, shifting from Online Action Detection (OAD)-based aggregation paradigm to instance-level understanding. However, existing approaches are typically trained on specific domains and often exhibit limited generalization capabilities when applied to arbitrary videos, particularly in the presence of previously unseen actions. In this paper, we introduce a new task called Online Zero-shot Temporal Action Localization (OZ-TAL), which aims to detect previously unseen actions in an online fashion. Furthermore, we propose a training-free framework that leverages off-the-shelf Vision-Language Models (VLMs) while introducing additional mechanisms to enhance visual representations and mitigate their inherent biases. We establish new benchmarks and representative baselines for OZ-TAL on THUMOS14 and ActivityNet-1.3, and extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches under both offline and online zero-shot settings.
- Abstract(参考訳): オンライン・テンポラル・アクション・ローカライゼーション (On-TAL) は、未トリミングストリーミングビデオの動作の発生時間とカテゴリを検出することを目的としている。
この分野の最近の進歩は、オンラインアクション検出(OAD)ベースの集約パラダイムからインスタンスレベルの理解へとシフトする、より洗練されたフレームワークの開発に焦点を当てている。
しかし、既存のアプローチは、通常特定のドメインで訓練され、特に以前は目に見えないアクションの存在下で、任意のビデオに適用する場合に、限定的な一般化能力を示すことが多い。
本稿では,オンライン・ゼロショット・テンポラル・アクション・ローカライゼーション(OZ-TAL)という新たなタスクを導入する。
さらに、市販のビジョンランゲージモデル(VLM)を活用しながら、視覚表現を強化し、固有のバイアスを軽減するための追加メカニズムを導入し、トレーニングフリーなフレームワークを提案する。
我々はTHUMOS14とActivityNet-1.3にOZ-TALの新たなベンチマークと代表的ベースラインを構築し、我々の手法がオフラインおよびオンライン両方のゼロショット設定において既存の最先端アプローチを大幅に上回っていることを示す広範な実験を行った。
関連論文リスト
- Exploring the Temporal Consistency for Point-Level Weakly-Supervised Temporal Action Localization [66.80402022104074]
ポイント教師付きテンポラルアクションローカライゼーション(PTAL)は、軽快なフレームアノテートパラダイム(textiti.e.、アクションインスタンスごとに1フレームのみをラベル付けする)を採用して、教師なしビデオ内のアクションインスタンスを見つけるようモデルを訓練する。
既存のアプローチのほとんどは、アクションのフレーム間の時間的関係を明確にモデル化することなく、ポイントトリミングされたスニペットレベルの分類だけでモデルのタスクヘッドを設計する。
本稿では,行動ローカライゼーションのための時間的理解能力を高めるために,ポイントインスペクションを完全に活用するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T14:46:21Z) - CLIP-AE: CLIP-assisted Cross-view Audio-Visual Enhancement for Unsupervised Temporal Action Localization [53.89574102984098]
Unsupervised temporal action Localization (UTAL) が人気を博している。
1) 事前学習した特徴を高度に識別する領域に過度に焦点をあてること,2) 視覚的モダリティ情報に頼ることによって文脈境界の決定が困難になる,という2つの課題に直面している。
そこで我々は,CLIPを用いたクロスビュー・オーディオヴィジュアル拡張UTAL法を提案する。
論文 参考訳(メタデータ) (2025-05-29T15:03:59Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - ACGNet: Action Complement Graph Network for Weakly-supervised Temporal
Action Localization [39.377289930528555]
教師なしビデオにおける弱いトリミング時間的行動ローカライゼーション(WTAL)は,ビデオレベルラベルのみが利用可能であるため,実用的ではあるが困難な課題となっている。
既存のアプローチは、通常、空間的不完全性と時間的不整合に苦しむ、既成のセグメントレベルの特徴を利用する。
本稿では,単純なグラフ畳み込みネットワークを用いてセグメントレベルの表現を強化することで,この問題に対処する。
論文 参考訳(メタデータ) (2021-12-21T04:18:44Z) - Exploring Temporal Context and Human Movement Dynamics for Online Action
Detection in Videos [32.88517041655816]
時間的文脈と人間の動きのダイナミクスは、オンライン行動検出に効果的に利用することができる。
提案手法は,様々な最先端アーキテクチャを用いて,抽出した特徴を適切に組み合わせて動作検出を改善する。
論文 参考訳(メタデータ) (2021-06-26T08:34:19Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。