論文の概要: A General Language Assistant as a Laboratory for Alignment
- arxiv url: http://arxiv.org/abs/2112.00861v1
- Date: Wed, 1 Dec 2021 22:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:40:36.838426
- Title: A General Language Assistant as a Laboratory for Alignment
- Title(参考訳): アライメントの研究室としての一般言語アシスタント
- Authors: Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom
Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, Nelson
Elhage, Zac Hatfield-Dodds, Danny Hernandez, Jackson Kernion, Kamal Ndousse,
Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris
Olah, Jared Kaplan
- Abstract要約: 簡単なベースライン手法と,プロンプトなどの評価について検討する。
モデルサイズにより, 緩やかな介入による利点が増大し, 様々なアライメント評価に一般化され, 大規模モデルの性能を損なわないことがわかった。
本研究では,人間の嗜好を微調整する際のサンプル効率の向上を目標として,事前学習段階の選好モデルについて検討した。
- 参考スコア(独自算出の注目度): 3.3598752405752106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the broad capabilities of large language models, it should be possible
to work towards a general-purpose, text-based assistant that is aligned with
human values, meaning that it is helpful, honest, and harmless. As an initial
foray in this direction we study simple baseline techniques and evaluations,
such as prompting. We find that the benefits from modest interventions increase
with model size, generalize to a variety of alignment evaluations, and do not
compromise the performance of large models. Next we investigate scaling trends
for several training objectives relevant to alignment, comparing imitation
learning, binary discrimination, and ranked preference modeling. We find that
ranked preference modeling performs much better than imitation learning, and
often scales more favorably with model size. In contrast, binary discrimination
typically performs and scales very similarly to imitation learning. Finally we
study a `preference model pre-training' stage of training, with the goal of
improving sample efficiency when finetuning on human preferences.
- Abstract(参考訳): 大規模言語モデルの幅広い能力を考えると、人間の価値に合わせた汎用的なテキストベースのアシスタントに向けて作業することは可能であり、有用で、正直で、無害である。
この方向への最初の一歩として、プロンプトのような単純なベースライン技術と評価を研究します。
モデルサイズにより, 緩やかな介入による利点が増大し, 様々なアライメント評価に一般化され, 大規模モデルの性能を損なわないことがわかった。
次に,アライメント,模倣学習,バイナリ識別,ランク付け選好モデルなどに関連するトレーニング対象のスケーリング傾向について検討する。
ランク付けされた選好モデリングは模倣学習よりもはるかに優れており、しばしばモデルサイズに好適にスケールする。
対照的に、二項判別は典型的には模倣学習と非常によく似ている。
最後に,人間の好みを微調整する際のサンプル効率を向上させることを目的として,トレーニングの'preference model pre-training'段階について検討した。
関連論文リスト
- Aligning Visual Contrastive learning models via Preference Optimization [0.9438963196770565]
本稿では,複雑な概念を分解するために,優先度最適化(PO)を用いたコントラスト学習モデルの学習方法を提案する。
提案手法は,モデル行動と所望の嗜好を体系的に整合させ,目標タスクの性能を向上させる。
特に、CLIPのような対照的なモデルでよく見られる、タイポグラフィー攻撃に対するモデル堅牢性の向上に焦点を当てる。
さらに, 性別の理解を阻害し, 性別の偏見を緩和するために本手法を適用し, センシティブな属性をより微妙に制御する。
論文 参考訳(メタデータ) (2024-11-12T08:14:54Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Revisiting the Superficial Alignment Hypothesis [0.9831489366502302]
表面アライメント仮説(英語版)は、言語モデルの能力と知識のほとんど全てが事前訓練中に学習されていることを示唆している。
我々はこれらの主張を再検討し、微調整例の増加とともにポストトレーニングのスケーリング行動を研究する。
論文 参考訳(メタデータ) (2024-09-27T22:14:10Z) - Reinforcement Learning without Human Feedback for Last Mile Fine-Tuning of Large Language Models [0.0]
強化学習は、言語モデルと人間の信号の整合に使用される。
この研究は、強化学習を用いたラストマイル微調整のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2024-08-29T17:49:18Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。
実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-04-07T12:10:04Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。