論文の概要: Preference-grounded Token-level Guidance for Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2306.00398v2
- Date: Mon, 9 Oct 2023 23:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:14:26.732251
- Title: Preference-grounded Token-level Guidance for Language Model Fine-tuning
- Title(参考訳): 言語モデルファインチューニングのための優先接地型トークンレベルガイダンス
- Authors: Shentao Yang, Shujian Zhang, Congying Xia, Yihao Feng, Caiming Xiong,
Mingyuan Zhou
- Abstract要約: 好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
- 参考スコア(独自算出の注目度): 105.88789610320426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models (LMs) with preferences is an important problem in
natural language generation. A key challenge is that preferences are typically
provided at the *sequence level* while LM training and generation both occur at
the *token level*. There is, therefore, a *granularity mismatch* between the
preference and the LM training losses, which may complicate the learning
problem. In this paper, we address this issue by developing an alternate
training process, where we iterate between grounding the sequence-level
preference into token-level training guidance, and improving the LM with the
learned guidance. For guidance learning, we design a framework that extends the
pairwise-preference learning in imitation learning to both variable-length LM
generation and the utilization of the preference among multiple generations.
For LM training, based on the amount of supervised data, we present two
*minimalist* learning objectives that utilize the learned guidance. In
experiments, our method performs competitively on two distinct representative
LM tasks -- discrete-prompt generation and text summarization.
- Abstract(参考訳): 言語モデル(lms)と選好の整合は自然言語生成において重要な問題である。
重要な課題は、通常、選好は *sequence レベル* で提供され、lm トレーニングと生成は *token レベル* で行われる。
したがって、好みとLMトレーニング損失との間には*粒度ミスマッチ*が存在し、学習問題を複雑化する可能性がある。
本稿では,シーケンスレベルの選好をトークンレベルのトレーニング指導に着地し,学習した指導でlmを改善するという,新たなトレーニングプロセスを開発することで,この問題に対処した。
誘導学習のために, 模倣学習におけるペアワイズ・プリファレンス学習を可変長lm生成と複数世代間の選好利用の両方に拡張するフレームワークを設計した。
lmトレーニングでは,教師データ量に基づいて,学習指導を利用した2つの*ミニマリスト*学習目標を示す。
実験では、2つの異なるLMタスク(離散プロンプト生成とテキスト要約)で競合的に動作する。
関連論文リスト
- TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment [30.93798042712827]
トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのために、ますますコストがかかる。
ノイズを排除し、語彙を最小化し、ジャンル固有のパターンを維持することで、テキストデータを洗練するためのパイプラインを提案する。
実験により,ランダー事前学習がLM学習効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-12-31T16:08:15Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z) - Meet in the Middle: A New Pre-training Paradigm [41.52858444519968]
ほとんどの言語モデル(LM)は、自己回帰的な左から右の方法で訓練され、適用されます。
本稿では,トレーニングデータ効率を協調的に向上させる技術を備えた,新たな事前学習パラダイムを提案する。
本稿では,プログラムモデルと自然言語モデルの両方に関する広範な実験により,事前学習パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T17:17:11Z) - Selective Token Generation for Few-shot Natural Language Generation [19.015739016376532]
我々は、強化学習(RL)に基づく新しい追加学習アルゴリズムを開発する。
提案した選択トークン生成法は, PLM に基づく従来の付加的学習アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-17T00:48:52Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。