論文の概要: Connecting the Dots: Collaborative Fine-tuning for Black-Box
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.04050v1
- Date: Tue, 6 Feb 2024 14:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:31:15.971124
- Title: Connecting the Dots: Collaborative Fine-tuning for Black-Box
Vision-Language Models
- Title(参考訳): ドットの接続:ブラックボックスビジョンランゲージモデルのための協調的微調整
- Authors: Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan
- Abstract要約: 本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
- 参考スコア(独自算出の注目度): 129.8887432965761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of pretrained vision-language models (VLMs), considerable
efforts have been devoted to fine-tuning them for downstream tasks. Despite the
progress made in designing efficient fine-tuning methods, such methods require
access to the model's parameters, which can be challenging as model owners
often opt to provide their models as a black box to safeguard model ownership.
This paper proposes a \textbf{C}ollabo\textbf{ra}tive
\textbf{F}ine-\textbf{T}uning (\textbf{CraFT}) approach for fine-tuning
black-box VLMs to downstream tasks, where one only has access to the input
prompts and the output predictions of the model. CraFT comprises two modules, a
prompt generation module for learning text prompts and a prediction refinement
module for enhancing output predictions in residual style. Additionally, we
introduce an auxiliary prediction-consistent loss to promote consistent
optimization across these modules. These modules are optimized by a novel
collaborative training algorithm. Extensive experiments on few-shot
classification over 15 datasets demonstrate the superiority of CraFT. The
results show that CraFT achieves a decent gain of about 12\% with 16-shot
datasets and only 8,000 queries. Moreover, CraFT trains faster and uses only
about 1/80 of the memory footprint for deployment, while sacrificing only
1.62\% compared to the white-box method.
- Abstract(参考訳): 事前訓練された視覚言語モデル(VLM)の出現に伴い、下流タスクのための微調整に多大な努力が注がれている。
効率的な微調整手法の設計の進歩にもかかわらず、そのような手法はモデルのパラメータへのアクセスを必要とするため、モデル所有者はモデル所有権を保護するためにブラックボックスとしてモデルを提供することがしばしば難しい。
本稿では,入力プロンプトとモデル出力予測にのみアクセス可能なブラックボックスVLMをダウンストリームタスクに微調整するための, \textbf{C}ollabo\textbf{ra}tive \textbf{F}ine-\textbf{T}uning (\textbf{CraFT})アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
さらに,これらモジュール間の一貫した最適化を促進するために,補助的な予測一貫性損失を導入する。
これらのモジュールは、新しい協調学習アルゴリズムによって最適化される。
15のデータセットにまたがる少数ショットの分類に関する広範な実験は、クラフトの優越性を示している。
その結果、craftは16ショットのデータセットと8000のクエリで約12\%のまともなゲインを達成できた。
さらに、CraFTはより速くトレーニングし、配置にメモリフットプリントの約1/80しか使用せず、ホワイトボックス方式に比べて1.62\%しか消費していない。
関連論文リスト
- TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Model Ensembling for Constrained Optimization [7.4351710906830375]
下流最適化に使用される多次元出力予測のためのモデルを組み立てたいという設定について検討する。
より正確には、状態空間を多次元実数値予測にマッピングする多くのモデルが与えられていると想像する。
これらの予測は、指定された制約の下で最適化したい線形対象の係数を形成する。
証明可能かつ収束性の高い2つのアルゴリズムに導かれる多重校正手法を適用した。
論文 参考訳(メタデータ) (2024-05-27T01:48:07Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning [13.211063836237468]
マフィン(Mafin)は、トレーニング可能な埋め込みモデルで強化することで、ブラックボックスの埋め込みモデルを微調整するための新しいアプローチである。
以上の結果から,Mafinは小さな拡張モデルの訓練を必要とせず,ブラックボックス埋め込みの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-19T14:33:24Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。