論文の概要: Neural Machine Translation Models Can Learn to be Few-shot Learners
- arxiv url: http://arxiv.org/abs/2309.08590v1
- Date: Fri, 15 Sep 2023 17:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:21:32.901830
- Title: Neural Machine Translation Models Can Learn to be Few-shot Learners
- Title(参考訳): ニューラルマシン翻訳モデルは、最小限の学習者になれる
- Authors: Raphael Reinauer and Patrick Simianer and Kaden Uhlig and Johannes E.
M. Mosig and Joern Wuebker
- Abstract要約: In-context Learning (ICL) を実行するために、はるかに小さなモデルを訓練できることが示される。
ICLのこの能力により、モデルは関連する少数ショットの例を利用して、その出力をドメインに適応させることができる。
提案手法により、ドメインの混合による効率的なバッチ推論が可能となり、翻訳品質と即時適応率の両方において最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 2.2999148299770042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergent ability of Large Language Models to use a small number of
examples to learn to perform in novel domains and tasks, also called in-context
learning (ICL). In this work, we show that a much smaller model can be trained
to perform ICL by fine-tuning towards a specialized training objective,
exemplified on the task of domain adaptation for neural machine translation.
With this capacity for ICL, the model can take advantage of relevant few-shot
examples to adapt its output towards the domain. We compare the quality of this
domain adaptation to traditional supervised techniques and ICL with a
40B-parameter Large Language Model. Our approach allows efficient batch
inference on a mix of domains and outperforms state-of-the-art baselines in
terms of both translation quality and immediate adaptation rate, i.e. the
ability to reproduce a specific term after being shown a single example.
- Abstract(参考訳): 大規模な言語モデルの創発的な能力 少数の例を使って、新しいドメインやタスクで実行することを学ぶことは、インコンテキスト学習(icl)とも呼ばれる。
本稿では,神経機械翻訳の領域適応の課題を例に挙げた,特殊訓練目標に向けて微調整することで,より小さいモデルでiclを行うように訓練できることを示す。
ICLのこの能力により、モデルは関連する少数ショットの例を利用して、その出力をドメインに適応させることができる。
このドメイン適応の質を従来の教師付き手法やICLと40Bパラメータ大言語モデルと比較する。
提案手法は,ドメインの混合による効率的なバッチ推論を可能にし,翻訳品質と即時適応率の両面で最先端のベースライン,すなわち単一の例を示してから特定の項を再現する能力を上回っている。
関連論文リスト
- Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Mitigating Catastrophic Forgetting in Language Transfer via Model Merging [16.845734486667226]
ブランチ・アンド・マージ(BaM)は複数のモデルを反復的にマージする手法である。
BaMは、これが低等級であるがより高い品質の重量変化をもたらすという知見に基づいている。
ブルガリア語とドイツ語の実証研究において、BaMは、マッチングやターゲットドメインの性能の向上を伴いながら、忘れを著しく低減できることを示した。
論文 参考訳(メタデータ) (2024-07-11T17:32:40Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Adaptive Cross-lingual Text Classification through In-Context One-Shot Demonstrations [47.89819316477715]
我々は、IC-XLT(In-Context Cross-lingual Transfer)を導入して、分類タスクにおけるワンショット言語間移動にICT(In-Context Tuning)を利用する。
新たな概念は、コンテキストサンプルから学習するためにモデルをトレーニングし、その言語でOne-Shotコンテキストのデモを予測することによって、ターゲット言語への推論中にそれを適応させる、というものだ。
この結果から, IC-XLT はmT5モデルの言語横断性を向上し, 微調整により適応したZero およびFew-shot シナリオにおいて, プロンプトベースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T04:40:57Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - CLIN-X: pre-trained language models and a study on cross-task transfer
for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。
本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。
本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文 参考訳(メタデータ) (2021-12-16T10:07:39Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - CALM: Continuous Adaptive Learning for Language Modeling [18.72860206714457]
自然言語処理コミュニティでは,大規模言語表現モデルのトレーニングが標準となっている。
これらの事前学習モデルが破滅的忘れという形で性能劣化を示すことを示す。
言語モデリングのための継続的適応学習CALM:複数のドメインにまたがる知識を保持するモデルをレンダリングする手法を提案する。
論文 参考訳(メタデータ) (2020-04-08T03:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。