Fugu-MT 論文翻訳(概要): Black-Box Tuning of Vision-Language Models with Effective Gradient Approximation

論文の概要: Black-Box Tuning of Vision-Language Models with Effective Gradient Approximation

arxiv url: http://arxiv.org/abs/2312.15901v1
Date: Tue, 26 Dec 2023 06:31:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 15:42:30.424395
Title: Black-Box Tuning of Vision-Language Models with Effective Gradient Approximation
Title（参考訳）: 効率的な勾配近似を用いた視覚言語モデルのブラックボックスチューニング
Authors: Zixian Guo, Yuxiang Wei, Ming Liu, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng Zuo
Abstract要約: ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。 CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
参考スコア（独自算出の注目度）: 71.21346469382821
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parameter-efficient fine-tuning (PEFT) methods have provided an effective way for adapting large vision-language models to specific tasks or scenarios. Typically, they learn a very small scale of parameters for pre-trained models in a white-box formulation, which assumes model architectures to be known and parameters to be accessible. However, large models are often not open-source due to considerations of preventing abuse or commercial factors, hence posing a barrier to the deployment of white-box PEFT methods. To alleviate the dependence on model accessibility, we introduce collaborative black-box tuning (CBBT) for both textual prompt optimization and output feature adaptation for black-box models. Specifically, considering that the backpropagation gradients are blocked, we approximate the gradients of textual prompts by analyzing the predictions with perturbed prompts. Secondly, a lightweight adapter is deployed over the output feature of the inaccessible model, further facilitating the model adaptation process. Empowered with these designs, our CBBT is extensively evaluated on eleven downstream benchmarks and achieves remarkable improvements compared to existing black-box VL adaptation methods. Code is released at https://github.com/guozix/cbbt.
Abstract（参考訳）: パラメータ効率のよいファインチューニング(peft)メソッドは、大きな視覚言語モデルを特定のタスクやシナリオに適応させる効果的な方法を提供する。通常、彼らは事前学習されたモデルの非常に小さなパラメータをホワイトボックスの定式化で学習し、モデルアーキテクチャを知っていて、パラメータがアクセス可能であると仮定する。しかし、大きなモデルは悪用や商業的要因を防ぐためにオープンソースではないことが多いため、ホワイトボックスのpeftメソッドの展開の障壁となっている。モデルアクセシビリティへの依存を軽減するため,ブラックボックスモデルのテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。具体的には、バックプロパゲーション勾配がブロックされていることを考慮し、摂動プロパゲーションを用いて予測を分析することにより、テキストプロパゲーションの勾配を近似する。第二に、アクセシブルモデルの出力機能の上に軽量アダプタが配置され、モデル適応プロセスがさらに容易になる。これらの設計を取り入れたCBBTは、既存のブラックボックスVL適応法と比較して、11のダウンストリームベンチマークで広範囲に評価され、顕著に改善されている。コードはhttps://github.com/guozix/cbbtでリリースされる。

関連論文リスト

Black-Box Forgetting [8.84485103053191]
我々は,ブラックボックスフォーッティングというブラックボックスモデルの選択的忘れ問題に対処する。本稿では,複数のトークン間で共通な低次元潜在成分をプロンプトに導入するLatent Context Sharingを提案する。 4つの標準ベンチマークデータセットに対する実験は、妥当なベースラインを持つ手法の優位性を実証している。
論文参考訳（メタデータ） (2024-11-01T07:10:40Z)
Gnothi Seauton: Empowering Faithful Self-Interpretability in Black-Box Models [21.698201509643624]
概念に基づくネットワークのような自己解釈型モデルは、決定を人間の理解可能な概念に結びつけることによって洞察を与える。シャプリー値のようなポストホック法は理論的には堅牢であるが、計算コストが高く、資源集約的である。ブラックボックスモデルに対する理論的に保証された自己解釈性を提供する。
論文参考訳（メタデータ） (2024-10-29T07:35:33Z)
Cliqueformer: Model-Based Optimization with Structured Transformers [102.55764949282906]
我々は、MBOタスクの構造を学習し、経験的に改良された設計につながるモデルを開発する。我々はCliqueformerを、高次元のブラックボックス機能から、化学・遺伝設計の現実的なタスクまで、様々なタスクで評価する。
論文参考訳（メタデータ） (2024-10-17T00:35:47Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
CPT: Consistent Proxy Tuning for Black-box Optimization [63.06335358432746]
Proxy-tuningはブラックボックス言語モデルをチューニングするためのテスト時間出力調整を提供する。本稿では,シンプルなブラックボックスチューニング手法であるConsistent Proxy Tuning (CPT)を紹介する。 CPTは、凍結した大きなブラックボックスモデルと別の凍結した小さなホワイトボックスモデルを利用して、トレーニングステージ最適化目標とテストタイムプロキシの一貫性を確保する。
論文参考訳（メタデータ） (2024-07-01T10:23:14Z)
Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文参考訳（メタデータ） (2024-05-30T08:16:22Z)
Efficient Black-box Adversarial Attacks via Bayesian Optimization Guided by a Function Prior [36.101904669291436]
本稿では,入力クエリの出力フィードバックのみを用いて,ブラックボックスモデルに対するサンプル生成を目的としたブラックボックス逆攻撃について検討する。ブラックボックス攻撃前の大域関数として代理モデルを利用する事前誘導ベイズ最適化(P-BO)アルゴリズムを提案する。後悔境界に関する理論的解析は、P-BOの性能が悪影響を受けていることを示唆している。
論文参考訳（メタデータ） (2024-05-29T14:05:16Z)
Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning [13.211063836237468]
マフィン(Mafin)は、トレーニング可能な埋め込みモデルで強化することで、ブラックボックスの埋め込みモデルを微調整するための新しいアプローチである。以上の結果から,Mafinは小さな拡張モデルの訓練を必要とせず,ブラックボックス埋め込みの性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-02-19T14:33:24Z)
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。 CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。 15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文参考訳（メタデータ） (2024-02-06T14:53:19Z)
Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文参考訳（メタデータ） (2023-05-23T07:54:34Z)
BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。 BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文参考訳（メタデータ） (2022-05-23T11:10:19Z)
How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文参考訳（メタデータ） (2022-03-27T03:23:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。