Fugu-MT 論文翻訳(概要): APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning

論文の概要: APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning

arxiv url: http://arxiv.org/abs/2401.06827v2
Date: Tue, 23 Jan 2024 08:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 18:15:59.661461
Title: APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning
Title（参考訳）: aple:マルチモーダルプロンプト学習のためのトークンアダプティブ
Authors: Guiming Cao, Kaize Shi, Hong Fu, Huaiwen Zhang and Guandong Xu
Abstract要約: token-wise Adaptive for Multi-modal Prompt Learning (APLe) を提案する。 APLeは、V-Lモデルを採用する上で絶対的に有利な、プロンプト長の実験において、堅牢性と好ましい性能を示す。
参考スコア（独自算出の注目度）: 15.844451999840588
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained Vision-Language (V-L) models set the benchmark for generalization to downstream tasks among the noteworthy contenders. Many characteristics of the V-L model have been explored in existing research including the challenge of the sensitivity to text input and the tuning process across multi-modal prompts. With the advanced utilization of the V-L model like CLIP, recent approaches deploy learnable prompts instead of hand-craft prompts to boost the generalization performance and address the aforementioned challenges. Inspired by layer-wise training, which is wildly used in image fusion, we note that using a sequential training process to adapt different modalities branches of CLIP efficiently facilitates the improvement of generalization. In the context of addressing the multi-modal prompting challenge, we propose Token-wise Adaptive for Multi-modal Prompt Learning (APLe) for tuning both modalities prompts, vision and language, as tokens in a sequential manner. APLe addresses the challenges in V-L models to promote prompt learning across both modalities, which indicates a competitive generalization performance in line with the state-of-the-art. Preeminently, APLe shows robustness and favourable performance in prompt-length experiments with an absolute advantage in adopting the V-L models.
Abstract（参考訳）: 事前訓練されたビジョン言語(v-l)モデルは、注目すべき候補の中で下流タスクへの一般化のベンチマークを設定した。 V-Lモデルの多くの特徴は、テキスト入力に対する感度の課題やマルチモーダルプロンプト間のチューニングプロセスなど、既存の研究で研究されている。 CLIPのようなV-Lモデルの高度な利用により、最近のアプローチでは、手作業のプロンプトの代わりに学習可能なプロンプトがデプロイされ、一般化のパフォーマンスが向上し、上記の課題に対処している。画像融合で多用される層間トレーニングに触発され,クリップの異なる分岐を適応させるための逐次訓練プロセスを用いることで,一般化の効率化が図れる。本稿では,マルチモーダル・プロンプト・チャレンジの文脈において,モダリティ・プロンプトと視覚,言語の両方を逐次的なトークンとしてチューニングする,マルチモーダル・プロンプト・ラーニング(aple)のためのトークン・アダプティブを提案する。 APLeはV-Lモデルの課題に対処し、両モード間の迅速な学習を促進する。顕著なことに、APLeはV-Lモデルを採用する上で絶対的な優位性を持つプロンプト長実験において、堅牢性と好ましい性能を示す。

関連論文リスト

Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。 AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。 MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文参考訳（メタデータ） (2025-07-11T08:45:27Z)
Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation [1.3381749415517021]
大規模言語モデル(LLM)をプロンプトに活用する新たなアプローチが提案されている。既存の方法は典型的には LLM からテキストベースの応答(つまり記述)を抽出し、プロンプトに組み込む。記述を抽出し, LLM から直接知識を抽出する新たな手法として, 記述不要なマルチプロンプト学習(DeMul)を提案する。
論文参考訳（メタデータ） (2025-07-09T07:55:25Z)
ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP [12.031278034659872]
継続学習は、事前訓練された視覚言語モデルに、新規または以前は表現されていないデータ分布に効果的に適応させる権限を与える。 ChordPromptは、視覚情報とテキスト情報の相互作用を活用するためのクロスモーダルプロンプトを導入している。 ChordPromptはゼロショットの一般化とダウンストリームのタスクパフォーマンスにおいて最先端の手法より優れている。
論文参考訳（メタデータ） (2025-06-24T13:22:06Z)
Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning [45.06983025267863]
本稿では、LVLM(Large Vision-Language Models)のICLについて検討し、マルチモーダルな実演選択のポリシーについて検討する。マルチモーダル情報を融合し,適切な実演を総合的に適応的に選択する政策を探求する新たな探索・探索強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-11T07:38:12Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
The Power of Adaptation: Boosting In-Context Learning through Adaptive Prompting [8.260097638532878]
大規模言語モデル(LLM)は、幅広い言語関連タスクで例外的な能力を示している。モデルフィードバックを活用することで,見本を適応的に選択する新しい手法であるtextscAdaptive-Promptを提案する。実験の結果,textscAdaptive-Promptは様々な推論タスクにおけるLLM性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-12-23T15:49:43Z)
Modality-Inconsistent Continual Learning of Multimodal Large Language Models [37.15220266767881]
マルチモーダル大言語モデル(MLLM)のための新しい連続学習シナリオであるMICL(Modality-Inconsistent Continual Learning)を導入する。既存の視覚のみやモダリティの増分設定とは異なり、MICLはモダリティとタスクタイプのシフトを組み合わせており、どちらも破滅的な忘れを招いている。本稿では, Pseudo Targets Generation Module を用いて, 以前見られたタスクタイプシフトによる忘れを軽減した MoInCL を提案する。
論文参考訳（メタデータ） (2024-12-17T16:13:56Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-07T03:33:46Z)
Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。 4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文参考訳（メタデータ） (2024-07-29T03:30:09Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。 APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文参考訳（メタデータ） (2023-12-04T01:42:09Z)
Context-Aware Prompt Tuning for Vision-Language Model with Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。 DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-08T06:51:15Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文参考訳（メタデータ） (2023-04-29T08:59:12Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。