Fugu-MT 論文翻訳(概要): Read-only Prompt Optimization for Vision-Language Few-shot Learning

論文の概要: Read-only Prompt Optimization for Vision-Language Few-shot Learning

arxiv url: http://arxiv.org/abs/2308.14960v2
Date: Fri, 10 Nov 2023 03:07:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 17:53:31.605747
Title: Read-only Prompt Optimization for Vision-Language Few-shot Learning
Title（参考訳）: 視覚言語少数ショット学習のための読み取り専用プロンプト最適化
Authors: Dongjun Lee, Seokwon Song, Jihee Suh, Joonmyung Choi, Sanghyeok Lee, and Hyunwoo J.Kim
Abstract要約: 学習可能なプロンプトは、自己アテンションモジュールの内部表現に影響を与える可能性がある。本稿では,リードオンリーのプロンプト最適化(RPO)を提案する。実験により, RPOはCLIPとCoCoOpより, ベース・ツー・ニューな一般化とドメインの一般化に優れることが示された。
参考スコア（独自算出の注目度）: 20.66798356082751
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, prompt tuning has proven effective in adapting pre-trained vision-language models to downstream tasks. These methods aim to adapt the pre-trained models by introducing learnable prompts while keeping pre-trained weights frozen. However, learnable prompts can affect the internal representation within the self-attention module, which may negatively impact performance variance and generalization, especially in data-deficient settings. To address these issues, we propose a novel approach, Read-only Prompt Optimization (RPO). RPO leverages masked attention to prevent the internal representation shift in the pre-trained model. Further, to facilitate the optimization of RPO, the read-only prompts are initialized based on special tokens of the pre-trained model. Our extensive experiments demonstrate that RPO outperforms CLIP and CoCoOp in base-to-new generalization and domain generalization while displaying better robustness. Also, the proposed method achieves better generalization on extremely data-deficient settings, while improving parameter efficiency and computational overhead. Code is available at https://github.com/mlvlab/RPO.
Abstract（参考訳）: 近年、事前訓練された視覚言語モデルの下流タスクへの適応において、プロンプトチューニングが効果的であることが証明されている。これらの方法は、学習可能なプロンプトを導入し、事前訓練された重量を凍結させながら、事前訓練されたモデルに適応することを目的としている。しかし、学習可能なプロンプトは自己認識モジュールの内部表現に影響を与え、特にデータ不足の環境ではパフォーマンスのばらつきや一般化に悪影響を及ぼす可能性がある。これらの問題に対処するため,新しい手法,RPO(Read-only Prompt Optimization)を提案する。 RPOは、事前訓練されたモデルの内部表現シフトを防止するためにマスクされた注意を利用する。さらに、RPOの最適化を容易にするために、事前訓練されたモデルの特別なトークンに基づいて読み取り専用プロンプトを初期化する。 RPOはCLIPやCoCoOpよりも高い性能を示し,高ロバスト性を示しながら,新たな一般化とドメインの一般化を実現している。また,提案手法は,パラメータ効率と計算オーバーヘッドを改善しつつ,極めてデータ不足な設定を最適化する。コードはhttps://github.com/mlvlab/rpoで入手できる。

関連論文リスト

PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。 PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文参考訳（メタデータ） (2025-07-26T21:46:32Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文参考訳（メタデータ） (2024-10-22T17:45:47Z)
Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文参考訳（メタデータ） (2024-10-06T14:41:13Z)
Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。 RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文参考訳（メタデータ） (2024-09-10T02:36:13Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文参考訳（メタデータ） (2024-06-04T20:21:45Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。 ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。 GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文参考訳（メタデータ） (2023-03-12T05:03:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。