論文の概要: Preference-grounded Token-level Guidance for Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2306.00398v1
- Date: Thu, 1 Jun 2023 07:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:51:41.341377
- Title: Preference-grounded Token-level Guidance for Language Model Fine-tuning
- Title(参考訳): 言語モデルファインチューニングのための優先接地型トークンレベルガイダンス
- Authors: Shentao Yang, Shujian Zhang, Congying Xia, Yihao Feng, Caiming Xiong,
Mingyuan Zhou
- Abstract要約: 好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
本研究では,複数世代間での嗜好を利用して,模倣学習におけるペアワイズ推論学習を可変長LM生成の両方に拡張するフレームワークを開発する。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
- 参考スコア(独自算出の注目度): 117.92270628031278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models (LMs) with preferences is an important problem in
natural language generation. A key challenge is that preferences are typically
provided at the sequence level while LM training and generation both occur at
the token level. There is, therefore, a granularity mismatch between the
preference and the LM training losses, which may complicate the learning
problem. In this paper, we address this issue by developing an alternate
training process, where we iterate between grounding the sequence-level
preference into token-level training guidance, and improving the LM with the
learned guidance. For guidance learning, we design a framework that extends the
pairwise-preference learning in imitation learning to both variable-length LM
generation and utilizing the preference among multiple generations. For LM
training, based on the amount of supervised data, we present two minimalist
learning objectives that utilize the learned guidance. In experiments, our
method performs competitively on two distinct representative LM tasks --
discrete-prompt generation and text summarization.
- Abstract(参考訳): 言語モデル(lms)と選好の整合は自然言語生成において重要な問題である。
鍵となる課題は、典型的にはシーケンスレベルで、LMトレーニングと生成の両方がトークンレベルで行われることである。
したがって、選好とlmトレーニング損失の間には粒度ミスマッチがあり、学習問題を複雑にする可能性がある。
本稿では,シーケンスレベルの選好をトークンレベルのトレーニング指導に着地し,学習した指導でlmを改善するという,新たなトレーニングプロセスを開発することで,この問題に対処した。
誘導学習のために, 模倣学習におけるペアワイズ・プリファレンス学習を可変長lm生成と複数世代間の選好を両立させるフレームワークを設計した。
lmトレーニングでは,教師データ量に基づいて,学習指導を用いた2つの最小主義学習目標を示す。
実験では、2つの異なるLMタスク、離散プロンプト生成とテキスト要約を競合的に行う。
関連論文リスト
- Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z) - Meet in the Middle: A New Pre-training Paradigm [41.52858444519968]
ほとんどの言語モデル(LM)は、自己回帰的な左から右の方法で訓練され、適用されます。
本稿では,トレーニングデータ効率を協調的に向上させる技術を備えた,新たな事前学習パラダイムを提案する。
本稿では,プログラムモデルと自然言語モデルの両方に関する広範な実験により,事前学習パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T17:17:11Z) - Selective Token Generation for Few-shot Natural Language Generation [19.015739016376532]
我々は、強化学習(RL)に基づく新しい追加学習アルゴリズムを開発する。
提案した選択トークン生成法は, PLM に基づく従来の付加的学習アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-17T00:48:52Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。