論文の概要: Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning
- arxiv url: http://arxiv.org/abs/2507.21588v1
- Date: Tue, 29 Jul 2025 08:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.945449
- Title: Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning
- Title(参考訳): マルチタスクインクリメンタル学習のためのプログレッシブ・ホメオスタティック・プラスティック・プロンプトチューニング
- Authors: Jiong Yin, Liang Li, Jiehua Zhang, Yuhan Gao, Chenggang Yan, Xichun Sheng,
- Abstract要約: 本稿では3段階のプログレッシブ・ホメオスタティック・オーディオ・ビジュアル・プロンプト(PHP)法を提案する。
浅層相では,タスク共有型モーダルアグリゲーションアダプタを設計し,タスク間およびモーダル間音響視覚表現学習を促進させる。
中間段階において,各タスクに適したプロンプトを構成するタスク固有モード共有動的生成アダプタを提案する。
深いフェーズでは、タスク固有のモダリティに依存しないプロンプトを導入し、その理解能力をさらに強化する。
- 参考スコア(独自算出の注目度): 23.22385310060951
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio-visual multi-task incremental learning aims to continuously learn from multiple audio-visual tasks without the need for joint training on all tasks. The challenge of the problem is how to preserve the old task knowledge while facilitating the learning of new task with previous experiences. To address these challenges, we introduce a three-stage Progressive Homeostatic and Plastic audio-visual prompt (PHP) method. In the shallow phase, we design the task-shared modality aggregating adapter to foster cross-task and cross-modal audio-visual representation learning to enhance shared understanding between tasks. In the middle phase, we propose the task-specific modality-shared dynamic generating adapter, which constructs prompts that are tailored to individual tasks while remaining general across modalities, which balances the models ability to retain knowledge against forgetting with its potential for versatile multi-task transferability. In the deep phase, we introduce the task-specific modality-independent prompts to further refine the understand ability by targeting individual information for each task and modality. By incorporating these three phases, PHP retains task-specific prompts while adapting shared parameters for new tasks to effectively balance knowledge sharing and specificity. Our method achieves SOTA performance in different orders of four tasks (AVE, AVVP, AVS and AVQA). Our code can be available at https://github.com/ENJOY-Yin-jiong/PHP.
- Abstract(参考訳): マルチタスクインクリメンタル学習は、複数の視覚タスクから連続的に学習することを目的としており、すべてのタスクで共同トレーニングを行う必要はない。
問題の課題は、以前の経験で新しいタスクの学習を容易にしながら、古いタスク知識をいかに保存するかである。
これらの課題に対処するために,3段階のプログレッシブ・ホメオスタティック・プラスティック・オーディオ・ビジュアル・プロンプト(PHP)法を提案する。
浅層相では,タスク間の共通理解を高めるために,タスク共有型モーダルアグリゲーションアダプタを設計し,タスク間のクロスタスクおよびクロスモーダルなオーディオ視覚表現学習を促進する。
中間段階において,各タスクに適合するプロンプトを構成するタスク固有モード共有動的生成アダプタを提案する。
深層相では,タスク固有のモーダリティに依存しないプロンプトを導入し,タスクごとの個別情報やモーダリティをターゲットとした理解能力をさらに向上させる。
これら3つのフェーズを取り入れることで、PHPはタスク固有のプロンプトを保持し、新しいタスクの共有パラメータを適用して、知識の共有と特異性を効果的にバランスさせる。
提案手法は4つのタスク(AVE, AVVP, AVS, AVQA)の異なる順序でSOTA性能を実現する。
私たちのコードはhttps://github.com/ENJOY-Yin-jiong/PHPで利用可能です。
関連論文リスト
- Is Visual in-Context Learning for Compositional Medical Tasks within Reach? [68.56630652862293]
本稿では、1つのモデルで複数のタスクを処理できるビジュアル・イン・コンテキスト・ラーニングの可能性について検討する。
本稿では,合成合成タスク生成エンジンを用いたコンテキスト内学習者の学習方法を提案する。
論文 参考訳(メタデータ) (2025-07-01T15:32:23Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。