論文の概要: Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation
- arxiv url: http://arxiv.org/abs/2305.13785v1
- Date: Tue, 23 May 2023 07:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:05:16.626894
- Title: Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation
- Title(参考訳): Prompt-based data Augmentation を用いたブラックボックスFew-Shotテキスト分類の強化
- Authors: Danqing Luo, Chen Zhang, Jiahui Xu, Bin Wang, Yiming Chen, Yan Zhang,
Haizhou Li
- Abstract要約: 大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
- 参考スコア(独自算出の注目度): 59.438057341014414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training or finetuning large-scale language models (LLMs) such as GPT-3
requires substantial computation resources, motivating recent efforts to
explore parameter-efficient adaptation to downstream tasks. One practical area
of research is to treat these models as black boxes and interact with them
through their inference APIs. In this paper, we investigate how to optimize
few-shot text classification without accessing the gradients of the LLMs. To
achieve this, we treat the black-box model as a feature extractor and train a
classifier with the augmented text data. Data augmentation is performed using
prompt-based finetuning on an auxiliary language model with a much smaller
parameter size than the black-box model. Through extensive experiments on eight
text classification datasets, we show that our approach, dubbed BT-Classifier,
significantly outperforms state-of-the-art black-box few-shot learners and
performs on par with methods that rely on full-model tuning.
- Abstract(参考訳): GPT-3のような大規模言語モデル(LLM)の訓練や微調整には、かなりの計算資源が必要である。
1つの実践的な研究領域は、これらのモデルをブラックボックスとして扱い、推論APIを通じてそれらと対話することである。
本稿では,llmの勾配にアクセスせずにテキスト分類を最適化する方法について検討する。
これを実現するために,ブラックボックスモデルを特徴抽出器として扱い,拡張テキストデータを用いて分類器を訓練する。
データ拡張は、ブラックボックスモデルよりもはるかに小さいパラメータサイズで補助言語モデルのプロンプトベースの微調整によって実行される。
8つのテキスト分類データセットに関する広範な実験により、BT-Classifierと呼ばれる我々のアプローチは、最先端のブラックボックス数ショット学習者よりも優れ、フルモデルチューニングに依存した手法と同等に機能することを示した。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - CrossTune: Black-Box Few-Shot Classification with Label Enhancement [40.88968135459357]
ラベル強化型クロスアテンションネットワークであるCrossTuneを導入し,ブラックボックス言語モデルの適応性を即時検索なしで研究する。
提案手法は,従来の勾配のないブラックボックスチューニング手法を平均5.7%向上させる。
論文 参考訳(メタデータ) (2024-03-19T05:52:56Z) - Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning [13.211063836237468]
マフィン(Mafin)は、トレーニング可能な埋め込みモデルで強化することで、ブラックボックスの埋め込みモデルを微調整するための新しいアプローチである。
以上の結果から,Mafinは小さな拡張モデルの訓練を必要とせず,ブラックボックス埋め込みの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-19T14:33:24Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive
Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。
複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-29T15:59:51Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。