論文の概要: Aligning language models with human preferences
- arxiv url: http://arxiv.org/abs/2404.12150v1
- Date: Thu, 18 Apr 2024 12:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:11:44.564466
- Title: Aligning language models with human preferences
- Title(参考訳): 人間の嗜好を考慮した言語モデルのアライメント
- Authors: Tomasz Korbak,
- Abstract要約: 大量のテキストデータに基づいて訓練された言語モデル(LM)は高度なスキルを習得することができる。
また、人間の嗜好に反する行動を示す。
LMを人間の好みに合わせるためのいくつかのアプローチを検討します。
- 参考スコア(独自算出の注目度): 5.0994393083677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) trained on vast quantities of text data can acquire sophisticated skills such as generating summaries, answering questions or generating code. However, they also manifest behaviors that violate human preferences, e.g., they can generate offensive content, falsehoods or perpetuate social biases. In this thesis, I explore several approaches to aligning LMs with human preferences. First, I argue that aligning LMs can be seen as Bayesian inference: conditioning a prior (base, pretrained LM) on evidence about human preferences (Chapter 2). Conditioning on human preferences can be implemented in numerous ways. In Chapter 3, I investigate the relation between two approaches to finetuning pretrained LMs using feedback given by a scoring function: reinforcement learning from human feedback (RLHF) and distribution matching. I show that RLHF can be seen as a special case of distribution matching but distributional matching is strictly more general. In chapter 4, I show how to extend the distribution matching to conditional language models. Finally, in chapter 5 I explore a different root: conditioning an LM on human preferences already during pretraining. I show that involving human feedback from the very start tends to be more effective than using it only during supervised finetuning. Overall, these results highlight the room for alignment techniques different from and complementary to RLHF.
- Abstract(参考訳): 大量のテキストデータに基づいてトレーニングされた言語モデル(LM)は、要約の生成、質問に答える、コードを生成するといった高度なスキルを習得することができる。
しかし、人間の嗜好に反する行動、例えば、攻撃的な内容、虚偽、永続的な社会的偏見を生成できる行動も示している。
この論文では、LMと人間の嗜好を結びつけるためのいくつかのアプローチについて考察する。
第一に、ALMの整列はベイズ的推論として見ることができ、人間の嗜好に関する証拠に事前(ベース、事前訓練されたLM)を条件付ける(Chapter 2)。
人間の好みの条件は、様々な方法で実装できる。
第3章では,人的フィードバックからの強化学習 (RLHF) と分布マッチング (Regress Learning from Human feedback, RLHF) というスコアリング関数によるフィードバックを用いて,事前学習したLMを微調整する2つの手法について検討する。
RLHFは分布整合の特別な場合と見なせるが、分布整合は厳密に一般的である。
第4章では、条件付き言語モデルへの分散マッチングをどのように拡張するかを示します。
最後に、第5章で、私は異なるルーツを探求します。
人間のフィードバックを最初から取り入れることは、教師付き微調整でのみ使うよりも効果的であることを示す。
これらの結果から,RLHFと異なるアライメント技術の可能性が示された。
関連論文リスト
- AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference [22.13596750775719]
そこで本研究では,人間の要約選好アライメントフレームワークAlignSumについて紹介する。
AlignSumでは、BART-LargeのようなPLMが自動評価と人的評価の両方で175B GPT-3を上回っている。
論文 参考訳(メタデータ) (2024-10-01T05:14:48Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Meet in the Middle: A New Pre-training Paradigm [41.52858444519968]
ほとんどの言語モデル(LM)は、自己回帰的な左から右の方法で訓練され、適用されます。
本稿では,トレーニングデータ効率を協調的に向上させる技術を備えた,新たな事前学習パラダイムを提案する。
本稿では,プログラムモデルと自然言語モデルの両方に関する広範な実験により,事前学習パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T17:17:11Z) - Pretraining Language Models with Human Preferences [21.724817280998696]
言語モデル(LM)はインターネットテキストを模倣するために事前訓練されている。
そこで本研究では,人間の嗜好に沿ったテキストを生成する方法として,LMの事前学習のための代替目的について検討する。
論文 参考訳(メタデータ) (2023-02-16T21:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。