Fugu-MT 論文翻訳(概要): Consistency-guided Prompt Learning for Vision-Language Models

論文の概要: Consistency-guided Prompt Learning for Vision-Language Models

arxiv url: http://arxiv.org/abs/2306.01195v1
Date: Thu, 1 Jun 2023 23:20:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 17:22:15.174550
Title: Consistency-guided Prompt Learning for Vision-Language Models
Title（参考訳）: 視覚言語モデルのための一貫性誘導型プロンプト学習
Authors: Shuvendu Roy, Ali Etemad
Abstract要約: CoPromptは視覚言語モデルのための新しい微調整手法である。大規模基盤モデルの一般化能力を改善するという課題に対処する。
参考スコア（独自算出の注目度）: 19.442685015494316
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning method for vision-language models that addresses the challenge of improving the generalization capability of large foundation models while fine-tuning them on downstream tasks in a few-shot setting. The basic idea of CoPrompt is to enforce a consistency constraint in the prediction of the trainable and pre-trained models to prevent overfitting on the downstream task. Additionally, we introduce the following two components into our consistency constraint to further boost the performance: enforcing consistency on two perturbed inputs and combining two dominant paradigms of tuning, prompting and adapter. Enforcing consistency on perturbed input further regularizes the consistency constraint, effectively improving generalization, while tuning additional parameters with prompting and adapters improves the performance on downstream tasks. Extensive experiments show that CoPrompt outperforms existing methods on a range of evaluation suites, including base-to-novel generalization, domain generalization, and cross-dataset evaluation tasks. On the generalization task, CoPrompt improves the state-of-the-art by 2.09% on the zero-shot task and 1.93% on the harmonic mean over 11 recognition datasets. Detailed ablation studies show the effectiveness of each of the components in CoPrompt.
Abstract（参考訳）: そこで本稿では,視覚言語モデルのための新しい微調整手法copromptを提案する。これは,数ショット設定で下流タスクを微調整しながら,大規模基礎モデルの一般化能力向上の課題に対処するものである。 CoPromptの基本的な考え方は、トレーニング可能なモデルと事前訓練されたモデルの予測に一貫性の制約を適用して、下流タスクの過度な適合を防ぐことである。さらに,2つの入力に一貫性を強制し,チューニング,プロンプト,アダプタという2つの支配的なパラダイムを組み合わせることで,一貫性の制約をさらに向上させます。摂動入力における一貫性の強化は、一貫性の制約をさらに規則化し、最適化を効果的に改善すると同時に、プロンプトとアダプタによる追加パラメータのチューニングにより、下流タスクのパフォーマンスが向上する。広範な実験により、copromptは、ベース・ツー・ノベルの一般化、ドメインの一般化、データセット間の評価タスクなど、さまざまな評価スイートで既存のメソッドよりも優れていることが示されている。一般化タスクでは、CoPromptはゼロショットタスクで2.09%、11の認識データセットで1.93%改善している。詳細なアブレーション研究は、CoPromptの各成分の有効性を示している。

関連論文リスト

Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning [1.3680468021400563]
ヴィジュアル言語モデル(VLM)の核となる課題は、ほとんどない PromptFuseNLは、予測的プロンプトチューニングと2分岐正負の学習を組み合わせることで、数ショットの一般化を向上する統合フレームワークである。
論文参考訳（メタデータ） (2025-05-16T23:39:34Z)
Visual Consensus Prompting for Co-Salient Object Detection [26.820772908765083]
共分散オブジェクト検出タスクに対して,対話効率とパラメータ効率のよい簡潔なアーキテクチャを提案する。パラメータ効率の良いプロンプトチューニングのパラダイムと,タスク固有のビジュアルコンセンサス・プロンプト(VCP)を定式化するためのプロンプトへのコンセンサスをシームレスに埋め込む OurVCPは、最先端のフル微調整モデル13を上回り、新しい最先端の技術を達成している(最も困難なCoCAデータセット上でのF_mメトリクスが6.8%改善されている)。
論文参考訳（メタデータ） (2025-04-19T10:12:39Z)
Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文参考訳（メタデータ） (2025-04-14T08:24:57Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。 15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文参考訳（メタデータ） (2024-12-30T12:06:27Z)
Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-11-04T19:55:32Z)
HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文参考訳（メタデータ） (2024-11-02T06:43:54Z)
IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。 IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文参考訳（メタデータ） (2024-06-19T16:37:31Z)
Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-18T02:54:41Z)
RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文参考訳（メタデータ） (2024-03-10T08:52:48Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文参考訳（メタデータ） (2022-11-04T02:06:22Z)
Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。 CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文参考訳（メタデータ） (2022-03-10T18:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。