論文の概要: Meet in the Middle: A New Pre-training Paradigm
- arxiv url: http://arxiv.org/abs/2303.07295v1
- Date: Mon, 13 Mar 2023 17:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:47:23.026910
- Title: Meet in the Middle: A New Pre-training Paradigm
- Title(参考訳): 中間のミート: トレーニング済みの新たなパラダイム
- Authors: Anh Nguyen, Nikos Karampatziakis, Weizhu Chen
- Abstract要約: ほとんどの言語モデル(LM)は、自己回帰的な左から右の方法で訓練され、適用されます。
本稿では,トレーニングデータ効率を協調的に向上させる技術を備えた,新たな事前学習パラダイムを提案する。
本稿では,プログラムモデルと自然言語モデルの両方に関する広範な実験により,事前学習パラダイムの有効性を示す。
- 参考スコア(独自算出の注目度): 41.52858444519968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most language models (LMs) are trained and applied in an autoregressive
left-to-right fashion, assuming that the next token only depends on the
preceding ones. However, this assumption ignores the potential benefits of
using the full sequence information during training, and the possibility of
having context from both sides during inference. In this paper, we propose a
new pre-training paradigm with techniques that jointly improve the training
data efficiency and the capabilities of the LMs in the infilling task. The
first is a training objective that aligns the predictions of a left-to-right LM
with those of a right-to-left LM, trained on the same data but in reverse
order. The second is a bidirectional inference procedure that enables both LMs
to meet in the middle. We show the effectiveness of our pre-training paradigm
with extensive experiments on both programming and natural language models,
outperforming strong baselines.
- Abstract(参考訳): ほとんどの言語モデル(lms)は、次のトークンが前のトークンのみに依存すると仮定して、自己回帰的な左から右への方法で訓練され適用される。
しかし、この仮定は、トレーニング中に全シーケンス情報を使用することの潜在的な利点と、推論中に両側からコンテキストを持つ可能性を無視している。
本稿では,入力タスクにおけるLMのトレーニングデータ効率と能力を協調的に向上させる技術を備えた,新しい事前学習パラダイムを提案する。
1つは、左から右のlmの予測を、同じデータに基づいてトレーニングされた右から左のlmの予測と一致させるトレーニング目標である。
2つ目は双方向の推論手順で、両方のLMが中央で一致できるようにする。
我々は,プログラミングモデルと自然言語モデルの両方において,強いベースラインを上回って広範な実験を行い,事前学習パラダイムの有効性を示す。
関連論文リスト
- Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - Pretraining Language Models with Human Preferences [21.724817280998696]
言語モデル(LM)はインターネットテキストを模倣するために事前訓練されている。
そこで本研究では,人間の嗜好に沿ったテキストを生成する方法として,LMの事前学習のための代替目的について検討する。
論文 参考訳(メタデータ) (2023-02-16T21:03:33Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。