論文の概要: CombLM: Adapting Black-Box Language Models through Small Fine-Tuned
Models
- arxiv url: http://arxiv.org/abs/2205.12213v2
- Date: Mon, 22 May 2023 16:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 06:13:59.302309
- Title: CombLM: Adapting Black-Box Language Models through Small Fine-Tuned
Models
- Title(参考訳): CombLM:小さな微調整モデルによるブラックボックス言語モデルへの適応
- Authors: Aitor Ormazabal, Mikel Artetxe and Eneko Agirre
- Abstract要約: 言語モデル(LM)を新しいタスクやドメインに適用するための手法は、伝統的にモデルへのホワイトボックスアクセスを前提としてきた。
重み付けや中間的アクティベーションへのアクセスを前提に,大規模LMを新しい領域やタスクに適用するための軽量な手法を提案する。
提案手法は, 小型のホワイトボックスLMを微調整し, 小さなネットワークを介して, 確率レベルで大きなブラックボックスLMと組み合わせることである。
- 参考スコア(独自算出の注目度): 43.28607973774104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods for adapting language models (LMs) to new tasks and domains have
traditionally assumed white-box access to the model, and work by modifying its
parameters. However, this is incompatible with a recent trend in the field,
where the highest quality models are only available as black-boxes through
inference APIs. Even when the model weights are available, the computational
cost of fine-tuning large LMs can be prohibitive for most practitioners. In
this work, we present a lightweight method for adapting large LMs to new
domains and tasks, assuming no access to their weights or intermediate
activations. Our approach fine-tunes a small white-box LM and combines it with
the large black-box LM at the probability level through a small network,
learned on a small validation set. We validate our approach by adapting a large
LM (OPT-30B) to several domains and a downstream task (machine translation),
observing improved performance in all cases, of up to 9\%, while using a domain
expert 23x smaller.
- Abstract(参考訳): 言語モデル(LM)を新しいタスクやドメインに適用するための手法は、伝統的にモデルへのホワイトボックスアクセスを仮定し、パラメータを変更することで機能する。
しかし、これはこの分野における最近のトレンドとは相容れない。最高の品質モデルは推論APIを通じてブラックボックスとしてのみ利用可能である。
モデルウェイトが利用可能であっても、多くの実践者にとって、大きなlmsを微調整する計算コストは禁止される。
本研究では,重みや中間的なアクティベーションを前提として,新しいドメインやタスクに大規模なlmsを適用するための軽量な手法を提案する。
提案手法は, 小型のホワイトボックスLMを微調整し, 小さなネットワークを介して, 確率レベルでの大きなブラックボックスLMと組み合わせ, 小さな検証セットで学習する。
我々は,大規模LM(OPT-30B)を複数のドメインに適用し,ダウンストリームタスク(機械翻訳)を適用し,最大9倍の性能向上を図り,ドメインエキスパートを23倍小さくすることで,アプローチを検証する。
関連論文リスト
- Translating away Translationese without Parallel Data [14.423809260672877]
翻訳されたテキストは、同じ言語の原文と比較して体系的な言語的差異を示す。
本稿では,翻訳文の翻訳文を減らすための新しい手法について検討する。
自己監督損失と教師なし損失を組み合わせて並列検証データの必要性を解消する方法を示す。
論文 参考訳(メタデータ) (2023-10-28T22:11:25Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - As Little as Possible, as Much as Necessary: Detecting Over- and
Undertranslations with Contrastive Conditioning [42.46681912294797]
本稿では,ニューラルマシン翻訳における過剰な単語の検出手法を提案する。
我々は,翻訳モデルに基づく全列の確率と,対応するソースやターゲットシーケンスを考慮に入れた部分の確率を比較する。
これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントで特定することができる。
論文 参考訳(メタデータ) (2022-03-03T18:59:02Z) - Uncertainty-Aware Semantic Augmentation for Neural Machine Translation [37.555675157198145]
本稿では,複数の意味的に等価なソース文間の普遍的な意味情報を明示的にキャプチャする不確実性を考慮した意味拡張を提案する。
我々のアプローチは、強いベースラインと既存の手法を大きく上回る。
論文 参考訳(メタデータ) (2020-10-09T07:48:09Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z) - Explicit Sentence Compression for Neural Machine Translation [110.98786673598016]
State-of-the-the-art Transformer-based Neural Machine Translation (NMT)システムはまだ標準のエンコーダデコーダフレームワークに従っている。
バックボーン情報は 文のギストを表すもので 具体的には 焦点を絞っていません
提案手法は,NMTのソース文表現を強化するための明示的な文圧縮手法である。
論文 参考訳(メタデータ) (2019-12-27T04:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。