論文の概要: In-Context Alignment: Chat with Vanilla Language Models Before
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2308.04275v1
- Date: Tue, 8 Aug 2023 14:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:34:54.748988
- Title: In-Context Alignment: Chat with Vanilla Language Models Before
Fine-Tuning
- Title(参考訳): コンテキストアライメント - 微調整前のバニラ言語モデルとのチャット
- Authors: Xiaochuang Han
- Abstract要約: バニラ言語モデルLlama-2を微調整する前に検討し、チャットスタイルの指示に従うように促された場合、平均9つのデモアライメント例を検索する。
直接的プロンプトと比較して、モデル重みを変更しないコンテキスト内アライメントは、勝利率w.r.tの7倍に増加する。
- 参考スコア(独自算出の注目度): 4.162663632560141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note, we explore inference-time alignment through in-context
learning. We consider a vanilla pretrained language model Llama-2 before any
fine-tuning and retrieve an average of 9 demonstration alignment examples when
the model is prompted to follow chat-style instructions. Compared to direct
prompting, the in-context alignment without changing model weights leads to a
7x increase in win-rate w.r.t. the text-davinci-003 model from OpenAI, making
the vanilla language model comparable to strong baselines with alignment
fine-tuning.
- Abstract(参考訳): 本稿では,コンテキスト内学習による推論時間アライメントについて検討する。
我々は,事前学習された言語モデルであるllama-2を微調整する前に検討し,モデルがチャットスタイルの指示に従うように促された場合,平均9個のデモンストレーションアライメント例を取得する。
直接的プロンプトと比較すると、モデル重みを変更しないコンテキスト内アライメントは、OpenAIのtext-davinci-003モデルであるWin-rate w.r.tの7倍増加し、アライメントを微調整する強力なベースラインに匹敵するバニラ言語モデルとなる。
関連論文リスト
- Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - RLCD: Reinforcement Learning from Contrastive Distillation for Language Model Alignment [121.45689748315125]
Reinforcement Learning from Contrastive Distillation (RLCD) は、人間のフィードバックを使わずに言語モデルを調整する方法である。
RLCDは2つの対照的なモデル出力から選好ペアを生成し、1つは、与えられた原則に従うように設計された正のプロンプトを使用し、もう1つは、それらに違反するように設計された負のプロンプトを使用する。
次に、選好ペアを用いて選好モデルを訓練し、強化学習によりベース非整合言語モデルを改善する。
論文 参考訳(メタデータ) (2023-07-24T17:23:22Z) - Incomplete Utterance Rewriting as Sequential Greedy Tagging [0.0]
モデル話者変動に対する話者認識埋め込みを導入する。
本モデルでは,従来の最先端モデルに匹敵する他のスコアを持つとともに,9つの復元スコアに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-07-08T04:05:04Z) - Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and
Evaluation [35.72916406365469]
数ショットの微調整とコンテキスト内学習の一般化と,データセットへの挑戦を比較した。
この結果から,微調整言語モデルがドメイン外をうまく一般化できることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T13:55:17Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Meta-learning via Language Model In-context Tuning [16.306733033119897]
メタラーニングの目標は、いくつかのラベル付き例で新しいタスクに適応することを学ぶことだ。
適応と予測をリキャストする$textitin-context tuningを提案する。
LAMAとBinaryClfsの2種類のテキスト分類タスクについて,本手法のベンチマークを行った。
論文 参考訳(メタデータ) (2021-10-15T02:29:09Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。