論文の概要: Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2504.13460v2
- Date: Wed, 23 Apr 2025 10:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.600858
- Title: Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization
- Title(参考訳): 短時間の時間的行動定位のためのチェーン・オブ・ソートテキスト推論
- Authors: Hongwei Ji, Wulian Yun, Mengshi Qi, Huadong Ma,
- Abstract要約: そこで本研究では,Chain-of-Thought文による時間的局所化手法を提案する。
具体的には、テキスト意味情報を活用して、アクションの共通点やバリエーションを捉える能力を高める新しい数ショット学習フレームワークを設計する。
公開されているActivityNet1.3とTHUMOS14データセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 22.58434223222062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional temporal action localization (TAL) methods rely on large amounts of detailed annotated data, whereas few-shot TAL reduces this dependence by using only a few training samples to identify unseen action categories. However, existing few-shot TAL methods typically focus solely on video-level information, neglecting textual information, which can provide valuable semantic support for the localization task. Therefore, we propose a new few-shot temporal action localization method by Chain-of-Thought textual reasoning to improve localization performance. Specifically, we design a novel few-shot learning framework that leverages textual semantic information to enhance the model's ability to capture action commonalities and variations, which includes a semantic-aware text-visual alignment module designed to align the query and support videos at different levels. Meanwhile, to better express the temporal dependencies and causal relationships between actions at the textual level to assist action localization, we design a Chain of Thought (CoT)-like reasoning method that progressively guides the Vision Language Model (VLM) and Large Language Model (LLM) to generate CoT-like text descriptions for videos. The generated texts can capture more variance of action than visual features. We conduct extensive experiments on the publicly available ActivityNet1.3 and THUMOS14 datasets. We introduce the first dataset named Human-related Anomaly Localization and explore the application of the TAL task in human anomaly detection. The experimental results demonstrate that our proposed method significantly outperforms existing methods in single-instance and multi-instance scenarios. We will release our code, data and benchmark.
- Abstract(参考訳): 従来の時間的行動ローカライゼーション(TAL)法は、大量の詳細な注釈付きデータに依存しているが、数ショットのTALでは、いくつかのトレーニングサンプルを使用して、目に見えない行動カテゴリを特定することで、この依存を減らす。
しかし、既存の数発のTALメソッドは、典型的にはビデオレベルの情報にのみ焦点をあて、テキスト情報を無視し、ローカライゼーションタスクに価値あるセマンティックサポートを提供する。
そこで本研究では,Chain-of-Thought文による時間的局所化手法を提案する。
具体的には、テキストのセマンティック情報を活用して、アクションの共通点とバリエーションを捕捉するモデルの能力を向上する、新しい数ショット学習フレームワークを設計する。
一方、アクションローカライゼーションを支援するために、テキストレベルでのアクション間の時間的依存関係や因果関係をよりよく表現するために、視覚言語モデル(VLM)と大規模言語モデル(LLM)を段階的にガイドする思考の連鎖(CoT)のような推論法を設計し、ビデオのCoTに似たテキスト記述を生成する。
生成されたテキストは、視覚的特徴よりもアクションのばらつきを捉えることができる。
公開されているActivityNet1.3とTHUMOS14データセットについて広範な実験を行った。
本稿では,ヒト関連異常局所化(Human-related Anomaly Localization,Human-related Anomaly Localization,Human-related Anomaly Localization,Human-related Anomaly Localization,Human-related Anomaly Localization,Human-related Anomaly Localization)と命名された最初のデータセットを紹介する。
実験結果から,提案手法は既存手法よりも高い性能を示した。
コード、データ、ベンチマークをリリースします。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization [3.996503381756227]
WTAL(Weakly supervised temporal action Localization)は、ビデオレベルのアノテーションのみを使用して、未トリミングビデオ中のアクションインスタンスを検出することを目的としている。
本稿では,人間の行動知識と意味知識を確率論的埋め込み空間に整合させる新しい枠組みを提案する。
本手法は,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-12T07:09:12Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。