論文の概要: Neural Machine Translation Models Can Learn to be Few-shot Learners
- arxiv url: http://arxiv.org/abs/2309.08590v1
- Date: Fri, 15 Sep 2023 17:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:21:32.901830
- Title: Neural Machine Translation Models Can Learn to be Few-shot Learners
- Title(参考訳): ニューラルマシン翻訳モデルは、最小限の学習者になれる
- Authors: Raphael Reinauer and Patrick Simianer and Kaden Uhlig and Johannes E.
M. Mosig and Joern Wuebker
- Abstract要約: In-context Learning (ICL) を実行するために、はるかに小さなモデルを訓練できることが示される。
ICLのこの能力により、モデルは関連する少数ショットの例を利用して、その出力をドメインに適応させることができる。
提案手法により、ドメインの混合による効率的なバッチ推論が可能となり、翻訳品質と即時適応率の両方において最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 2.2999148299770042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergent ability of Large Language Models to use a small number of
examples to learn to perform in novel domains and tasks, also called in-context
learning (ICL). In this work, we show that a much smaller model can be trained
to perform ICL by fine-tuning towards a specialized training objective,
exemplified on the task of domain adaptation for neural machine translation.
With this capacity for ICL, the model can take advantage of relevant few-shot
examples to adapt its output towards the domain. We compare the quality of this
domain adaptation to traditional supervised techniques and ICL with a
40B-parameter Large Language Model. Our approach allows efficient batch
inference on a mix of domains and outperforms state-of-the-art baselines in
terms of both translation quality and immediate adaptation rate, i.e. the
ability to reproduce a specific term after being shown a single example.
- Abstract(参考訳): 大規模な言語モデルの創発的な能力 少数の例を使って、新しいドメインやタスクで実行することを学ぶことは、インコンテキスト学習(icl)とも呼ばれる。
本稿では,神経機械翻訳の領域適応の課題を例に挙げた,特殊訓練目標に向けて微調整することで,より小さいモデルでiclを行うように訓練できることを示す。
ICLのこの能力により、モデルは関連する少数ショットの例を利用して、その出力をドメインに適応させることができる。
このドメイン適応の質を従来の教師付き手法やICLと40Bパラメータ大言語モデルと比較する。
提案手法は,ドメインの混合による効率的なバッチ推論を可能にし,翻訳品質と即時適応率の両面で最先端のベースライン,すなわち単一の例を示してから特定の項を再現する能力を上回っている。
関連論文リスト
- Adaptive Cross-lingual Text Classification through In-Context One-Shot Demonstrations [47.89819316477715]
我々は、IC-XLT(In-Context Cross-lingual Transfer)を導入して、分類タスクにおけるワンショット言語間移動にICT(In-Context Tuning)を利用する。
新たな概念は、コンテキストサンプルから学習するためにモデルをトレーニングし、その言語でOne-Shotコンテキストのデモを予測することによって、ターゲット言語への推論中にそれを適応させる、というものだ。
この結果から, IC-XLT はmT5モデルの言語横断性を向上し, 微調整により適応したZero およびFew-shot シナリオにおいて, プロンプトベースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T04:40:57Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - CLIN-X: pre-trained language models and a study on cross-task transfer
for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。
本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。
本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文 参考訳(メタデータ) (2021-12-16T10:07:39Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Neural Machine Translation for Low-Resource Domains via
Meta-Learning [27.86606560170401]
unsupervised neural machine translation (UNMT) のための新しいメタ学習アルゴリズムを提案する。
私たちは、少量のトレーニングデータだけを利用して、別のドメインに適応するようにモデルを訓練します。
我々のモデルは、最大2-4 BLEUスコアの転送学習に基づくアプローチを超越している。
論文 参考訳(メタデータ) (2020-10-18T17:54:13Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - CALM: Continuous Adaptive Learning for Language Modeling [18.72860206714457]
自然言語処理コミュニティでは,大規模言語表現モデルのトレーニングが標準となっている。
これらの事前学習モデルが破滅的忘れという形で性能劣化を示すことを示す。
言語モデリングのための継続的適応学習CALM:複数のドメインにまたがる知識を保持するモデルをレンダリングする手法を提案する。
論文 参考訳(メタデータ) (2020-04-08T03:51:17Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。