論文の概要: Zero-Shot Temporal Action Localization Through Textual Guidance
- arxiv url: http://arxiv.org/abs/2605.22201v1
- Date: Thu, 21 May 2026 09:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.179529
- Title: Zero-Shot Temporal Action Localization Through Textual Guidance
- Title(参考訳): テキスト誘導によるゼロショット時間行動定位
- Authors: Benedetta Liberatori, Alessandro Conti, Lorenzo Vaquero, Paolo Rota, Yiming Wang, Elisa Ricci,
- Abstract要約: 時間的アクションローカライゼーション(ZS-TAL)は、未トリミングビデオにおけるアクションの分類とローカライゼーションである。
トレーニングデータからの監督の欠如を補う新たなアプローチとして,ビデオ中のアクションのより詳細なローカライズのためのテキストガイダンス(TEGU)を提案する。
- 参考スコア(独自算出の注目度): 57.40476559895395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Zero-shot temporal action localization (ZS-TAL) consists of classifying and localizing actions in untrimmed videos, where action classes are unseen at training time. Existing work uses Vision and Language Models (VLMs), taking advantage of their strong zero-shot transfer capabilities. Yet, these models face evident challenges with fine-grained action classification, making it difficult to directly use them to distinguish between the presence and absence of an action. Most current methods for ZS-TAL address these challenges by training models on large-scale video datasets, which require annotated data and often result in limited generalization performance. Recently, approaches discarding the use of labeled data have emerged as an alternative. Following this direction, we propose a novel approach, ``Textual Guidance for finer localization of actions in videos'' (TEGU), that compensates for the lack of supervision from training data by exploiting rich textual information derived from large language models and structured text extracted from captions. This additional linguistic context can improve fine-grained discrimination by providing richer cues about fine-grained action differences within videos. We validate the effectiveness of the proposed method by conducting experiments on the THUMOS14 and the ActivityNet-v1.3 datasets. Our results show that, by exploiting rich textual information for improved action localization, TEGU outperforms state-of-the-art ZS-TAL approaches that do not involve training
- Abstract(参考訳): Zero-shot temporal Action Localization (ZS-TAL) は、未トリミングビデオにおけるアクションの分類とローカライズによって構成される。
既存の作業はビジョンと言語モデル(VLM)を使用しており、強力なゼロショット転送機能を活用している。
しかし、これらのモデルは、きめ細かいアクション分類で明らかな課題に直面しており、アクションの存在と欠如を区別するために直接使用するのは難しい。
ZS-TALの現在のほとんどの手法は、注釈付きデータを必要とする大規模ビデオデータセットのモデルをトレーニングすることでこれらの課題に対処する。
近年、ラベル付きデータの使用を廃止するアプローチが代替手段として浮上している。
そこで本研究では,大規模な言語モデルから得られたリッチテキスト情報とキャプションから抽出した構造化テキスト情報を利用して,トレーニングデータからの監督の欠如を補う,ビデオ中のアクションのより詳細なローカライズのためのテキストガイダンス(TEGU)を提案する。
この追加の言語コンテキストは、ビデオ内のきめ細かいアクションの相違についてよりリッチな手がかりを提供することによって、きめ細かな識別を改善することができる。
THUMOS14とActivityNet-v1.3データセットを用いて実験を行い,提案手法の有効性を検証する。
以上の結果から,TAGUはリッチテキスト情報を利用して行動局所化を改善することにより,訓練を伴わない最先端のZS-TALアプローチより優れることがわかった。
関連論文リスト
- Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization [22.58434223222062]
そこで本研究では,Chain-of-Thought文による時間的局所化手法を提案する。
具体的には、テキスト意味情報を活用して、アクションの共通点やバリエーションを捉える能力を高める新しい数ショット学習フレームワークを設計する。
公開されているActivityNet1.3とTHUMOS14データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-04-18T04:35:35Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。
トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。
時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T11:54:49Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。