論文の概要: CombLM: Adapting Black-Box Language Models through Small Fine-Tuned
Models
- arxiv url: http://arxiv.org/abs/2305.16876v1
- Date: Tue, 23 May 2023 06:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 12:00:11.875343
- Title: CombLM: Adapting Black-Box Language Models through Small Fine-Tuned
Models
- Title(参考訳): CombLM:小さな微調整モデルによるブラックボックス言語モデルへの適応
- Authors: Aitor Ormazabal, Mikel Artetxe and Eneko Agirre
- Abstract要約: 言語モデル(LM)を新しいタスクやドメインに適用するための手法は、伝統的にモデルへのホワイトボックスアクセスを前提としてきた。
重み付けや中間的アクティベーションへのアクセスを前提に,大規模LMを新しい領域やタスクに適用するための軽量な手法を提案する。
提案手法は, 小型のホワイトボックスLMを微調整し, 小さなネットワークを介して, 確率レベルで大きなブラックボックスLMと組み合わせることである。
- 参考スコア(独自算出の注目度): 43.28607973774104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods for adapting language models (LMs) to new tasks and domains have
traditionally assumed white-box access to the model, and work by modifying its
parameters. However, this is incompatible with a recent trend in the field,
where the highest quality models are only available as black-boxes through
inference APIs. Even when the model weights are available, the computational
cost of fine-tuning large LMs can be prohibitive for most practitioners. In
this work, we present a lightweight method for adapting large LMs to new
domains and tasks, assuming no access to their weights or intermediate
activations. Our approach fine-tunes a small white-box LM and combines it with
the large black-box LM at the probability level through a small network,
learned on a small validation set. We validate our approach by adapting a large
LM (OPT-30B) to several domains and a downstream task (machine translation),
observing improved performance in all cases, of up to 9%, while using a domain
expert 23x smaller.
- Abstract(参考訳): 言語モデル(LM)を新しいタスクやドメインに適用するための手法は、伝統的にモデルへのホワイトボックスアクセスを仮定し、パラメータを変更することで機能する。
しかし、これはこの分野における最近のトレンドとは相容れない。最高の品質モデルは推論APIを通じてブラックボックスとしてのみ利用可能である。
モデルウェイトが利用可能であっても、多くの実践者にとって、大きなlmsを微調整する計算コストは禁止される。
本研究では,重みや中間的なアクティベーションを前提として,新しいドメインやタスクに大規模なlmsを適用するための軽量な手法を提案する。
提案手法は, 小型のホワイトボックスLMを微調整し, 小さなネットワークを介して, 確率レベルでの大きなブラックボックスLMと組み合わせ, 小さな検証セットで学習する。
我々は,大規模lm(opt-30b)を複数のドメインと下流タスク(機械翻訳)に適応させ,すべてのケースにおけるパフォーマンスを最大9%,ドメインエキスパートを23倍小さくすることで検証した。
関連論文リスト
- BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。
提案手法は, 小型のLMをチューニングし, 小型のLMと未チューニングのLMの予測の差を適用して, より大型の未チューニングモデルの本来の予測をチューニング方向にシフトさせる。
論文 参考訳(メタデータ) (2024-01-16T18:49:55Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - CELDA: Leveraging Black-box Language Model as Enhanced Classifier
without Labels [14.285609493077965]
クラスタリング強化線形識別分析(Linar Discriminative Analysis)は、非常に弱いスーパービジョン信号を用いてテキスト分類精度を向上させる新しい手法である。
我々のフレームワークは、LMモデルやデータラベルの重みや勾配にアクセスすることなく、正確な決定境界を描画する。
論文 参考訳(メタデータ) (2023-06-05T08:35:31Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Adaptable Multi-Domain Language Model for Transformer ASR [16.8397357399749]
提案モデルでは,原モデルのすべての層を用いて微調整された完全微調整LMを再利用することができる。
提案モデルはまた,コストと時間を要する共通LM事前学習プロセスを省くことができるため,モデル保守コストの低減にも有効である。
論文 参考訳(メタデータ) (2020-08-14T06:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。