論文の概要: The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning
- arxiv url: http://arxiv.org/abs/2312.01552v1
- Date: Mon, 4 Dec 2023 00:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:46:03.612329
- Title: The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning
- Title(参考訳): base llmsのアンロックスペル: インコンテキスト学習によるアライメント再考
- Authors: Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri,
Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi
- Abstract要約: 最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
- 参考スコア(独自算出の注目度): 61.68787689234622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment tuning process of large language models (LLMs) typically
involves instruction learning through supervised fine-tuning (SFT) and
preference tuning via reinforcement learning from human feedback (RLHF). A
recent study, LIMA (Zhou et al. 2023), shows that using merely 1K examples for
SFT can achieve significant alignment performance as well, suggesting that the
effect of alignment tuning might be "superficial." This raises questions about
how exactly the alignment tuning transforms a base LLM.
We analyze the effect of alignment tuning by examining the token distribution
shift between base LLMs and their aligned counterpart. Our findings reveal that
base LLMs and their alignment-tuned versions perform nearly identically in
decoding on the majority of token positions. Most distribution shifts occur
with stylistic tokens. These direct evidence strongly supports the Superficial
Alignment Hypothesis suggested by LIMA.
Based on these findings, we rethink the alignment of LLMs by posing the
research question: how effectively can we align base LLMs without SFT or RLHF?
To address this, we introduce a simple, tuning-free alignment method, URIAL.
URIAL achieves effective alignment purely through in-context learning (ICL)
with base LLMs, requiring as few as three constant stylistic examples and a
system prompt. We conduct a fine-grained and interpretable evaluation on a
diverse set of examples, named JUST-EVAL-INSTRUCT. Results demonstrate that
base LLMs with URIAL can match or even surpass the performance of LLMs aligned
with SFT or SFT+RLHF. We show that the gap between tuning-free and tuning-based
alignment methods can be significantly reduced through strategic prompting and
ICL. Our findings on the superficial nature of alignment tuning and results
with URIAL suggest that deeper analysis and theoretical understanding of
alignment is crucial to future LLM research.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントチューニングプロセスは、典型的には、教師付き微調整(SFT)による指導学習と、人間からのフィードバック(RLHF)による強化学習による選好チューニングを含む。
最近の研究であるLIMA (Zhou et al. 2023) は、単に1KのサンプルをSFTに使用すれば、アライメントのパフォーマンスも向上し、アライメントチューニングの効果が「超越的」である可能性を示唆している。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
基本LLMとその配位子間のトークン分布シフトを調べることでアライメントチューニングの効果を解析する。
本研究により, トークン位置の復号化において, 基本LLMとアライメント調整版がほぼ同じ性能を示した。
ほとんどの分布シフトはスタイリスティックなトークンで起こる。
これらの直接的な証拠はLIMAが提案した表面配向仮説を強く支持している。
これらの知見に基づいて,SFT や RLHF を使わずに,LLM のアライメントをいかに効果的に調整できるかという研究課題を提起することによって,LLM のアライメントを再考する。
そこで本研究では,シンプルなチューニング不要アライメント手法URIALを提案する。
URIALは、テキスト内学習(ICL)をベースLLMと組み合わせることで、効果的なアライメントを実現し、3つの定常的なスタイリスティックな例とシステムプロンプトを必要とする。
我々は,JUST-EVAL-INSTRUCTという,多種多様な例に対して,きめ細かな,解釈可能な評価を行う。
その結果, URIAL をベースとした LLM は, SFT や SFT+RLHF と整合した LLM の性能に適合したり, 上回ったりできることを示した。
我々は,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトとICLによって著しく低減できることを示す。
我々は,アライメント調整の表層的性質とURIALによる結果から,アライメントの深い解析と理論的理解が今後のLLM研究に不可欠であることが示唆された。
関連論文リスト
- Aligners: Decoupling LLMs and Alignment [49.8019652005368]
大きな言語モデル(LLM)は、ほとんどのアプリケーションで安全性と実用性を確保するために、人間の期待に沿う必要がある。
そこで本稿では,LLM とアライメントを,任意の基準をアライメントするためのアライメントモデルのトレーニングによって分離することを提案する。
論文 参考訳(メタデータ) (2024-03-07T04:54:56Z) - Causal Prompting: Debiasing Large Language Model Prompting based on
Front-Door Adjustment [24.932188867289533]
大規模言語モデルのバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は3つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Pedagogical Alignment of Large Language Models [26.68545613232345]
本稿では,Large Language Models (LLM) の新たな概念について紹介する。
LLMは足場ツールとして機能し、複雑な問題を管理可能なサブプロブレムに分解し、建設的なフィードバックとヒントを通じて最終回答へと導く。
本研究では、アライメントのレンズを通してタスクを観察することで物語を再解釈し、RLHF法がいかに優れた代替手段として自然に現れるかを実証する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning
Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。
Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。
本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文 参考訳(メタデータ) (2023-12-31T21:18:16Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [113.01510055986694]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。