Fugu-MT 論文翻訳(概要): In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model

論文の概要: In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model

arxiv url: http://arxiv.org/abs/2403.06126v2
Date: Mon, 19 Aug 2024 14:22:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 03:27:41.872967
Title: In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model
Title（参考訳）: 凍結視覚言語モデルを用いたテスト時間視覚認識のためのインコンテキスト・プロンプト学習
Authors: Junhui Yin, Xinyu Zhang, Lin Wu, Xiaojie Wang,
Abstract要約: In-Context Prompt Learning (InCPL) を提案する。 InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
参考スコア（独自算出の注目度）: 13.983810804606264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current pre-trained vision-language models, such as CLIP, have demonstrated remarkable zero-shot generalization capabilities across various downstream tasks. However, their performance significantly degrades when test inputs exhibit different distributions. In this paper, we explore the concept of test-time prompt tuning (TTPT), which facilitates the adaptation of the CLIP model to novel downstream tasks through a one-step unsupervised optimization that involves only test samples. Inspired by in-context learning in natural language processing (NLP), we propose In-Context Prompt Learning (InCPL) for test-time visual recognition tasks, which empowers a pre-trained vision-language model with labeled examples as context information on downstream task. Specifically, InCPL associates a new test sample with very few labeled examples (sometimes just one) as context information, enabling reliable label estimation for the test sample and facilitating model adaptation. To achieve this, InCPL employs an efficient language-to-vision translator to explore the textual prior information for visual prompt learning. Further, we introduce a context-aware unsupervised loss to optimize visual prompts tailored to test samples. Finally, we design a cyclic learning strategy for visual and textual prompts to ensure mutual synergy across different modalities. This enables a pre-trained, frozen CLIP model to adapt to any task using its learned adaptive prompt. Our method demonstrates superior performance and achieves state-of-the-art results across various downstream datasets.
Abstract（参考訳）: 現在のCLIPのような事前訓練された視覚言語モデルは、様々な下流タスクにまたがる顕著なゼロショットの一般化機能を示している。しかし、テスト入力が異なる分布を示すと、その性能は著しく低下する。本稿では,テストサンプルのみを含む一段階の教師なし最適化により,CLIPモデルの下流タスクへの適応を容易にするテスト時プロンプトチューニング(TTPT)の概念について検討する。 In-Context Prompt Learning (InCPL) は,自然言語処理(NLP)におけるインコンテキスト学習にインスパイアされ,ダウンストリームタスクのコンテキスト情報としてラベル付き例を用いた事前学習された視覚言語モデルを実現する。特に、InCPLは、少数のラベル付きサンプル(時には1つだけ)をコンテキスト情報として新しいテストサンプルを関連付け、テストサンプルの信頼性の高いラベル推定を可能にし、モデル適応を容易にする。これを実現するために、InCPLは効率的な言語とビジョンのトランスレータを使用して、視覚的プロンプト学習のためのテキスト先行情報を探索する。さらに、テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。最後に、視覚的およびテキスト的プロンプトのための循環学習戦略を設計し、異なるモーダル間の相互シナジーを確保する。これにより、トレーニング済みで凍結されたCLIPモデルは、学習した適応プロンプトを使用して任意のタスクに適応できる。提案手法は,様々なダウンストリームデータセットにまたがって,優れた性能を示し,最先端の結果を得る。

関連論文リスト

AmPLe: Supporting Vision-Language Models via Adaptive-Debiased Ensemble Multi-Prompt Learning [35.68750432673712]
既存のマルチプロンプト学習手法は主に、単一の基礎概念言語モデル内で、細心の注意を払って設計されたプロンプトを活用することに焦点を当てている。同じプロンプトは異なる視覚言語モデル間で異なる意味を伝達することができ、結果として同一のプロンプトの矛盾した予測をもたらす。本稿では,AmPLeと略すアダプティブ・デバイアス・アンサンブル・マルチプロンプト・ラーニングを提案し,2種類のバイアスを同時に緩和する。
論文参考訳（メタデータ） (2025-12-20T16:21:24Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
Tuning-Free Personalized Alignment via Trial-Error-Explain In-Context Learning [74.56097953187994]
本稿では,テキスト生成タスクのための言語モデルをパーソナライズするチューニング不要な手法であるTrial-Error-Explain In-Context Learning(TICL)を提案する。 TICLは、試行錯誤説明プロセスを通じて、文脈内学習プロンプトを反復的に拡張し、モデル生成陰性サンプルと説明を追加する。 TICLは従来の最先端技術に対して最大91.5%を達成し、パーソナライズされたアライメントタスクのための競争的なチューニング不要のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-13T05:20:21Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文参考訳（メタデータ） (2024-11-23T02:34:33Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。 MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文参考訳（メタデータ） (2024-01-09T10:15:59Z)
Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文参考訳（メタデータ） (2023-03-23T12:28:25Z)
Improving Few-Shot Performance of Language Models via Nearest Neighbor Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文参考訳（メタデータ） (2022-12-05T12:49:41Z)
CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。 CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文参考訳（メタデータ） (2022-10-19T08:06:39Z)
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。 TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文参考訳（メタデータ） (2022-09-15T17:55:11Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。本稿では,CLIP-Adapterを提案する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)
Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文参考訳（メタデータ） (2021-08-24T09:39:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。