論文の概要: Decompose and Transfer: CoT-Prompting Enhanced Alignment for Open-Vocabulary Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2603.24030v1
- Date: Wed, 25 Mar 2026 07:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.185774
- Title: Decompose and Transfer: CoT-Prompting Enhanced Alignment for Open-Vocabulary Temporal Action Detection
- Title(参考訳): 解離と移動: CoT-prompting による開語彙時間的行動検出のためのアライメント強化
- Authors: Sa Zhu, Wanqian Zhang, Lin Wang, Xiaohua Chen, Chenxu Cui, Jinchao Zhang, Bo Li,
- Abstract要約: Open-Vocabulary Temporal Action Detectionは、目に見えないカテゴリーの未編集ビデオでアクションセグメントを分類し、ローカライズすることを目的としている。
従来の手法はラベルレベルの意味論と視覚的特徴のグローバルなアライメントにのみ依存していた。
動作パターンの微粒化を可能にする位相分解アライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.20482802952099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Temporal Action Detection (OV-TAD) aims to classify and localize action segments in untrimmed videos for unseen categories. Previous methods rely solely on global alignment between label-level semantics and visual features, which is insufficient to transfer temporal consistent visual knowledge from seen to unseen classes. To address this, we propose a Phase-wise Decomposition and Alignment (PDA) framework, which enables fine-grained action pattern learning for effective prior knowledge transfer. Specifically, we first introduce the CoT-Prompting Semantic Decomposition (CSD) module, which leverages the chain-of-thought (CoT) reasoning ability of large language models to automatically decompose action labels into coherent phase-level descriptions, emulating human cognitive processes. Then, Text-infused Foreground Filtering (TIF) module is introduced to adaptively filter action-relevant segments for each phase leveraging phase-wise semantic cues, producing semantically aligned visual representations. Furthermore, we propose the Adaptive Phase-wise Alignment (APA) module to perform phase-level visual-textual matching, and adaptively aggregates alignment results across phases for final prediction. This adaptive phase-wise alignment facilitates the capture of transferable action patterns and significantly enhances generalization to unseen actions. Extensive experiments on two OV-TAD benchmarks demonstrated the superiority of the proposed method.
- Abstract(参考訳): Open-Vocabulary Temporal Action Detection (OV-TAD)は、未知のカテゴリの未編集ビデオのアクションセグメントを分類し、ローカライズすることを目的としている。
従来の手法はラベルレベルの意味論と視覚的特徴のグローバルな整合性にのみ依存しており、時間的一貫した視覚的知識を目に見えないクラスに伝達するには不十分である。
そこで本研究では,PDAフレームワークを提案する。このフレームワークにより,より詳細な動作パターンの学習が可能となり,より効果的な事前知識伝達が可能となる。
具体的には、まず、大規模言語モデルのチェーン・オブ・シント(CoT)推論能力を利用して、行動ラベルをコヒーレントな位相レベル記述に自動的に分解し、人間の認知過程をエミュレートするCoT-Prompting Semantic Decomposition(CSD)モジュールを紹介する。
次に、テキスト注入フォアグラウンドフィルタリング(TIF)モジュールを導入し、フェーズワイドなセマンティックキューを利用して各フェーズのアクション関連セグメントを適応的にフィルタリングし、セマンティックに整合した視覚表現を生成する。
さらに,アダプティブ・フェーズ・ワイド・アライメント(APA)モジュールを提案し,位相レベルの視覚的テキストマッチングを行い,最終的な予測のために位相間のアライメント結果を適応的に集約する。
この適応的な位相アライメントは、伝達可能なアクションパターンのキャプチャを容易にし、目に見えないアクションへの一般化を著しく強化する。
2つのOV-TADベンチマークの大規模な実験により,提案手法の優位性が確認された。
関連論文リスト
- AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。
本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。
実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文 参考訳(メタデータ) (2025-09-07T07:07:59Z) - Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation [48.488114831677166]
CLIPは、強い視覚的テキストアライメントを示すが、ローカライゼーションが不十分なため、オープン語彙セグメンテーションに苦慮している。
本稿では,出力ベースのパッチレベルの対応を中間的注意に戻す,トレーニング不要でフィードバック駆動型の自己適応型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-27T20:47:03Z) - Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。
我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。
その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-01T11:55:12Z) - HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。
視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。
HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文 参考訳(メタデータ) (2025-07-28T15:09:52Z) - DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。
一般化を強化するために2つの補完正則化戦略を統合する。
さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-26T00:14:52Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。