Fugu-MT 論文翻訳(概要): In-Context Alignment: Chat with Vanilla Language Models Before Fine-Tuning

論文の概要: In-Context Alignment: Chat with Vanilla Language Models Before Fine-Tuning

arxiv url: http://arxiv.org/abs/2308.04275v1
Date: Tue, 8 Aug 2023 14:17:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 12:34:54.748988
Title: In-Context Alignment: Chat with Vanilla Language Models Before Fine-Tuning
Title（参考訳）: コンテキストアライメント - 微調整前のバニラ言語モデルとのチャット
Authors: Xiaochuang Han
Abstract要約: バニラ言語モデルLlama-2を微調整する前に検討し、チャットスタイルの指示に従うように促された場合、平均9つのデモアライメント例を検索する。直接的プロンプトと比較して、モデル重みを変更しないコンテキスト内アライメントは、勝利率w.r.tの7倍に増加する。
参考スコア（独自算出の注目度）: 4.162663632560141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this note, we explore inference-time alignment through in-context learning. We consider a vanilla pretrained language model Llama-2 before any fine-tuning and retrieve an average of 9 demonstration alignment examples when the model is prompted to follow chat-style instructions. Compared to direct prompting, the in-context alignment without changing model weights leads to a 7x increase in win-rate w.r.t. the text-davinci-003 model from OpenAI, making the vanilla language model comparable to strong baselines with alignment fine-tuning.
Abstract（参考訳）: 本稿では,コンテキスト内学習による推論時間アライメントについて検討する。我々は,事前学習された言語モデルであるllama-2を微調整する前に検討し,モデルがチャットスタイルの指示に従うように促された場合,平均9個のデモンストレーションアライメント例を取得する。直接的プロンプトと比較すると、モデル重みを変更しないコンテキスト内アライメントは、OpenAIのtext-davinci-003モデルであるWin-rate w.r.tの7倍増加し、アライメントを微調整する強力なベースラインに匹敵するバニラ言語モデルとなる。

関連論文リスト

Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
Tuning-Free Personalized Alignment via Trial-Error-Explain In-Context Learning [74.56097953187994]
本稿では,テキスト生成タスクのための言語モデルをパーソナライズするチューニング不要な手法であるTrial-Error-Explain In-Context Learning(TICL)を提案する。 TICLは、試行錯誤説明プロセスを通じて、文脈内学習プロンプトを反復的に拡張し、モデル生成陰性サンプルと説明を追加する。 TICLは従来の最先端技術に対して最大91.5%を達成し、パーソナライズされたアライメントタスクのための競争的なチューニング不要のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-13T05:20:21Z)
Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文参考訳（メタデータ） (2024-10-14T17:57:09Z)
Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文参考訳（メタデータ） (2024-10-01T17:50:17Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文参考訳（メタデータ） (2023-10-25T19:25:16Z)
Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文参考訳（メタデータ） (2023-08-11T17:47:54Z)
RLCD: Reinforcement Learning from Contrastive Distillation for Language Model Alignment [121.45689748315125]
Reinforcement Learning from Contrastive Distillation (RLCD) は、人間のフィードバックを使わずに言語モデルを調整する方法である。 RLCDは2つの対照的なモデル出力から選好ペアを生成し、1つは、与えられた原則に従うように設計された正のプロンプトを使用し、もう1つは、それらに違反するように設計された負のプロンプトを使用する。次に、選好ペアを用いて選好モデルを訓練し、強化学習によりベース非整合言語モデルを改善する。
論文参考訳（メタデータ） (2023-07-24T17:23:22Z)
Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation [35.72916406365469]
数ショットの微調整とコンテキスト内学習の一般化と,データセットへの挑戦を比較した。この結果から,微調整言語モデルがドメイン外をうまく一般化できることが示唆された。
論文参考訳（メタデータ） (2023-05-26T13:55:17Z)
Meta-learning via Language Model In-context Tuning [16.306733033119897]
メタラーニングの目標は、いくつかのラベル付き例で新しいタスクに適応することを学ぶことだ。適応と予測をリキャストする$textitin-context tuningを提案する。 LAMAとBinaryClfsの2種類のテキスト分類タスクについて,本手法のベンチマークを行った。
論文参考訳（メタデータ） (2021-10-15T02:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。