論文の概要: In-Context Alignment: Chat with Vanilla Language Models Before
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2308.04275v1
- Date: Tue, 8 Aug 2023 14:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:34:54.748988
- Title: In-Context Alignment: Chat with Vanilla Language Models Before
Fine-Tuning
- Title(参考訳): コンテキストアライメント - 微調整前のバニラ言語モデルとのチャット
- Authors: Xiaochuang Han
- Abstract要約: バニラ言語モデルLlama-2を微調整する前に検討し、チャットスタイルの指示に従うように促された場合、平均9つのデモアライメント例を検索する。
直接的プロンプトと比較して、モデル重みを変更しないコンテキスト内アライメントは、勝利率w.r.tの7倍に増加する。
- 参考スコア(独自算出の注目度): 4.162663632560141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note, we explore inference-time alignment through in-context
learning. We consider a vanilla pretrained language model Llama-2 before any
fine-tuning and retrieve an average of 9 demonstration alignment examples when
the model is prompted to follow chat-style instructions. Compared to direct
prompting, the in-context alignment without changing model weights leads to a
7x increase in win-rate w.r.t. the text-davinci-003 model from OpenAI, making
the vanilla language model comparable to strong baselines with alignment
fine-tuning.
- Abstract(参考訳): 本稿では,コンテキスト内学習による推論時間アライメントについて検討する。
我々は,事前学習された言語モデルであるllama-2を微調整する前に検討し,モデルがチャットスタイルの指示に従うように促された場合,平均9個のデモンストレーションアライメント例を取得する。
直接的プロンプトと比較すると、モデル重みを変更しないコンテキスト内アライメントは、OpenAIのtext-davinci-003モデルであるWin-rate w.r.tの7倍増加し、アライメントを微調整する強力なベースラインに匹敵するバニラ言語モデルとなる。
関連論文リスト
- Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - RLCD: Reinforcement Learning from Contrastive Distillation for Language Model Alignment [121.45689748315125]
Reinforcement Learning from Contrastive Distillation (RLCD) は、人間のフィードバックを使わずに言語モデルを調整する方法である。
RLCDは2つの対照的なモデル出力から選好ペアを生成し、1つは、与えられた原則に従うように設計された正のプロンプトを使用し、もう1つは、それらに違反するように設計された負のプロンプトを使用する。
次に、選好ペアを用いて選好モデルを訓練し、強化学習によりベース非整合言語モデルを改善する。
論文 参考訳(メタデータ) (2023-07-24T17:23:22Z) - Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and
Evaluation [35.72916406365469]
数ショットの微調整とコンテキスト内学習の一般化と,データセットへの挑戦を比較した。
この結果から,微調整言語モデルがドメイン外をうまく一般化できることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T13:55:17Z) - Meta-learning via Language Model In-context Tuning [16.306733033119897]
メタラーニングの目標は、いくつかのラベル付き例で新しいタスクに適応することを学ぶことだ。
適応と予測をリキャストする$textitin-context tuningを提案する。
LAMAとBinaryClfsの2種類のテキスト分類タスクについて,本手法のベンチマークを行った。
論文 参考訳(メタデータ) (2021-10-15T02:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。