Fugu-MT 論文翻訳(概要): Advancing Prompt Learning through an External Layer

論文の概要: Advancing Prompt Learning through an External Layer

arxiv url: http://arxiv.org/abs/2407.19674v1
Date: Mon, 29 Jul 2024 03:30:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 15:16:04.570934
Title: Advancing Prompt Learning through an External Layer
Title（参考訳）: 外部層によるプロンプト学習の促進
Authors: Fangming Cui, Xun Yang, Chao Wu, Liang Xiao, Xinmei Tian,
Abstract要約: 本稿では,視覚言語モデルを下流タスクに適応させるために,テキストブランチの外層と視覚ブランチの学習可能な視覚埋め込みを提案する。提案手法は,既存の素早い学習法と比較して,11個のデータセットにまたがる4種類の代表タスクに対して良好に動作する。
参考スコア（独自算出の注目度）: 24.77977865016954
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt learning represents a promising method for adapting pre-trained visual-language models (VLMs) to various downstream tasks by learning a set of text embeddings. One challenge inherent to these methods is the poor generalization performance due to the invalidity of the learned text embeddings for unseen tasks. A straightforward approach to bridge this gap is to freeze the text embeddings in prompts, which results in a lack of capacity to adapt VLMs for downstream tasks. To address this dilemma, we proposeto introduce an External Layer (EnLa) of text branch and learnable visual embeddings of the visual branch for adapting VLMs to downstream tasks. The learnable external layer is built upon valid embeddings of pre-trained CLIP. This design considers the balance of learning capabilities between the two branches. To align the textual and visual features, we propose a novel two-pronged approach: i) we introduce the optimal transport as the discrepancy metric to align the vision and text modalities, and ii) we introducea novel strengthening feature to enhance the interaction between these two modalities. Extensive experiments show that our method performs favorably well on 4 types of representative tasks across 11 datasets compared to the existing prompt learning methods.
Abstract（参考訳）: Prompt Learningは、テキスト埋め込みの集合を学習することで、訓練済みの視覚言語モデル(VLM)を様々な下流タスクに適用するための有望な方法である。これらの手法に固有の課題の1つは、未知のタスクに対する学習されたテキスト埋め込みの無効性による一般化性能の低下である。このギャップを埋めるための直接的なアプローチは、プロンプトにテキストの埋め込みを凍結することであり、結果として、下流タスクにVLMを適用する能力が欠如している。このジレンマに対処するために、テキストブランチの外部層(EnLa)と、VLMを下流タスクに適用するための視覚ブランチの学習可能な視覚埋め込みを提案する。学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。この設計は2つのブランチ間の学習能力のバランスを考慮する。テキスト的特徴と視覚的特徴を整合させるために,我々は新しい2段階のアプローチを提案する。一視覚とテキストのモダリティを整合させるための相違指標として最適輸送を導入すること。二この二つのモダリティ間の相互作用を強化するために、新しい強化機能を導入する。実験の結果,提案手法は既存の素早い学習法と比較して,11個のデータセットにまたがる4種類の代表タスクに対して良好に動作することがわかった。

関連論文リスト

Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment [33.152772648399846]
本稿では,視覚言語によるコントラスト学習における意味表現を豊かにするための新しい手法を提案する。プリトレーニング済みのLLMをCLIPフレームワーク内のテキストエンコーダとして利用し、すべてのプロンプトを1つのフォワードパスで共同処理します。結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文参考訳（メタデータ） (2025-08-03T20:48:43Z)
ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP [12.031278034659872]
継続学習は、事前訓練された視覚言語モデルに、新規または以前は表現されていないデータ分布に効果的に適応させる権限を与える。 ChordPromptは、視覚情報とテキスト情報の相互作用を活用するためのクロスモーダルプロンプトを導入している。 ChordPromptはゼロショットの一般化とダウンストリームのタスクパフォーマンスにおいて最先端の手法より優れている。
論文参考訳（メタデータ） (2025-06-24T13:22:06Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。 P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文参考訳（メタデータ） (2024-06-05T07:59:48Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Concept-Guided Prompt Learning for Generalization in Vision-Language Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。 Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文参考訳（メタデータ） (2024-01-15T04:04:47Z)
APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning [15.844451999840588]
token-wise Adaptive for Multi-modal Prompt Learning (APLe) を提案する。 APLeは、V-Lモデルを採用する上で絶対的に有利な、プロンプト長の実験において、堅牢性と好ましい性能を示す。
論文参考訳（メタデータ） (2024-01-12T04:54:01Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
Improving In-Context Learning in Diffusion Models with Visual Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。 iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文参考訳（メタデータ） (2023-12-03T14:15:52Z)
DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文参考訳（メタデータ） (2023-08-19T15:48:38Z)
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文参考訳（メタデータ） (2022-11-02T03:38:02Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。