Fugu-MT 論文翻訳(概要): When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective

論文の概要: When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective

arxiv url: http://arxiv.org/abs/2409.01821v2
Date: Wed, 4 Sep 2024 12:58:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 01:47:58.124326
Title: When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective
Title（参考訳）: 視覚言語モデルにおける視覚プロンプトの線形探索はいつ可能か : 類似の視点
Authors: Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Tsung-Yi Ho,
Abstract要約: 本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
参考スコア（独自算出の注目度）: 57.05315507519704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adapting pre-trained models to new tasks can exhibit varying effectiveness across datasets. Visual prompting, a state-of-the-art parameter-efficient transfer learning method, can significantly improve the performance of out-of-distribution tasks. On the other hand, linear probing, a standard transfer learning method, can sometimes become the best approach. We propose a log-likelihood ratio (LLR) approach to analyze the comparative benefits of visual prompting and linear probing. By employing the LLR score alongside resource-efficient visual prompts approximations, our cost-effective measure attains up to a 100-fold reduction in run time compared to full training, while achieving prediction accuracies up to 91%. The source code is available at https://github.com/IBM/VP-LLR.
Abstract（参考訳）: トレーニング済みのモデルを新しいタスクに適応させることは、データセット間でさまざまな効果を示すことができる。最先端パラメータ効率の伝達学習手法であるビジュアルプロンプトは、配布外タスクの性能を大幅に向上させることができる。一方, 標準的な伝達学習手法である線形探索は, 最良の手法となることがある。本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。 LLRスコアと資源効率のよい視覚的プロンプトを併用することにより、コスト効率はフルトレーニングに比べて100倍の時間短縮を実現し、予測精度は最大91%に向上した。ソースコードはhttps://github.com/IBM/VP-LLR.comで公開されている。

関連論文リスト

Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文参考訳（メタデータ） (2025-01-25T07:21:50Z)
Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model [41.55165760439727]
視覚言語モデル(VLM)は、さまざまな下流タスクに取り組むために、トレーニング済みの大きなモデルを活用することで、機械学習に革命をもたらした。ラベル効率適応と推論のためのグラフベースの手法を提案する。提案手法は,テキストプロンプト,少数ショット例,テストサンプルのグラフを動的に構築する。
論文参考訳（メタデータ） (2024-12-24T09:15:00Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-04T04:42:05Z)
Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。 MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文参考訳（メタデータ） (2024-01-09T10:15:59Z)
Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文参考訳（メタデータ） (2023-12-08T19:26:13Z)
Parameter-Efficient Transfer Learning for Remote Sensing Image-Text Retrieval [10.84733740863356]
本研究では,画像テキスト検索タスクにおいて,自然領域から RS 領域に視覚言語知識を伝達するためのパラメータ効率変換学習(PETL)手法について検討する。提案モデルでは0.16万のトレーニングパラメータしか含まないため,完全微調整に比べて98.9%のパラメータ削減が可能である。検索性能は従来の手法を7～13%超え,完全微調整よりも高い性能を達成している。
論文参考訳（メタデータ） (2023-08-24T02:43:53Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Guiding The Last Layer in Federated Learning with Pre-Trained Models [18.382057374270143]
フェデレートラーニング(FL)は、データを共有することなく、多数の参加者にまたがってモデルをトレーニングできる新興パラダイムである。 NCM(Nearest Class Means)を用いた分類ヘッドの適合は,既存の提案よりも正確に,桁違いに効率的に行えることを示す。
論文参考訳（メタデータ） (2023-06-06T18:02:02Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。