論文の概要: Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2505.06002v1
- Date: Fri, 09 May 2025 12:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.262625
- Title: Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition
- Title(参考訳): Task-Adapter++:Few-shot行動認識のための順序認識アライメントによるタスク固有適応
- Authors: Congqi Cao, Peiheng Han, Yueran zhang, Yating Yu, Qinyi Lv, Lingtong Min, Yanning zhang,
- Abstract要約: 本稿では,画像エンコーダとテキストエンコーダのパラメータ効率を両立させる手法を提案する。
具体的には,画像エンコーダのタスク固有の適応を設計し,特徴抽出時に最も識別性の高い情報をよく認識できるようにする。
我々は,視覚的特徴を意味的記述と同じ時間的段階に存在するように積極的にマッピングする,革新的な細粒度クロスモーダルアライメント戦略を開発した。
- 参考スコア(独自算出の注目度): 33.22316608406554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained models have achieved remarkable success in language and image tasks, leading an increasing number of studies to explore the application of pre-trained image models, such as CLIP, in the domain of few-shot action recognition (FSAR). However, current methods generally suffer from several problems: 1) Direct fine-tuning often undermines the generalization capability of the pre-trained model; 2) The exploration of task-specific information is insufficient in the visual tasks; 3) The semantic order information is typically overlooked during text modeling; 4) Existing cross-modal alignment techniques ignore the temporal coupling of multimodal information. To address these, we propose Task-Adapter++, a parameter-efficient dual adaptation method for both image and text encoders. Specifically, to make full use of the variations across different few-shot learning tasks, we design a task-specific adaptation for the image encoder so that the most discriminative information can be well noticed during feature extraction. Furthermore, we leverage large language models (LLMs) to generate detailed sequential sub-action descriptions for each action class, and introduce semantic order adapters into the text encoder to effectively model the sequential relationships between these sub-actions. Finally, we develop an innovative fine-grained cross-modal alignment strategy that actively maps visual features to reside in the same temporal stage as semantic descriptions. Extensive experiments fully demonstrate the effectiveness and superiority of the proposed method, which achieves state-of-the-art performance on 5 benchmarks consistently. The code is open-sourced at https://github.com/Jaulin-Bage/Task-Adapter-pp.
- Abstract(参考訳): 大規模な事前訓練されたモデルは、言語や画像タスクにおいて顕著な成功を収めており、少数ショットアクション認識(FSAR)の分野において、CLIPのような事前訓練されたイメージモデルの適用を探求する研究が増えている。
しかし、現在の手法は一般的にいくつかの問題に悩まされる。
1) 直接微調整は,事前訓練されたモデルの一般化能力を損なうことが多い。
2)視覚的タスクにおいて,タスク固有の情報の探索は不十分である。
3) セマンティックオーダー情報は、通常、テキストモデリング中に見過ごされる。
4) 既存のクロスモーダルアライメント手法は, 多モーダル情報の時間的結合を無視する。
そこで本稿では,画像エンコーダとテキストエンコーダの両方を対象としたパラメータ効率の2値適応手法であるTask-Adapter++を提案する。
具体的には,画像エンコーダのタスク固有の適応を設計し,特徴抽出時に最も識別性の高い情報をよく認識できるようにする。
さらに,大規模言語モデル(LLM)を活用して,各アクションクラスに対して詳細な逐次サブアクション記述を生成し,テキストエンコーダにセマンティックオーダアダプタを導入し,これらのサブアクション間のシーケンシャルな関係を効果的にモデル化する。
最後に,視覚的特徴を意味記述と同じ時間的段階に存在するように積極的にマッピングする,革新的な細粒度クロスモーダルアライメント戦略を開発する。
提案手法の有効性と優位性を実証し,5つのベンチマークにおける最先端性能を連続的に実現した。
コードはhttps://github.com/Jaulin-Bage/Task-Adapter-pp.comで公開されている。
関連論文リスト
- CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。
特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。
提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文 参考訳(メタデータ) (2025-04-26T03:26:30Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - Task-Adapter: Task-specific Adaptation of Image Models for Few-shot Action Recognition [34.88916568947695]
簡単なタスク固有適応法(Task-Adapter)を提案する。
提案したTask-Adapterをバックボーンの最後のいくつかのレイヤに導入することで、フル微調整によるオーバーフィッティング問題を軽減します。
実験結果から,提案したタスクアダプタが標準の4つのアクション認識データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-08-01T03:06:56Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph [63.81641578763094]
適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
論文 参考訳(メタデータ) (2023-09-24T12:56:40Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。