論文の概要: Revisiting the Superficial Alignment Hypothesis
- arxiv url: http://arxiv.org/abs/2410.03717v1
- Date: Fri, 27 Sep 2024 22:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 20:28:28.244886
- Title: Revisiting the Superficial Alignment Hypothesis
- Title(参考訳): 表面アライメント仮説の再考
- Authors: Mohit Raghavendra, Vaskar Nath, Sean Hendryx,
- Abstract要約: 表面アライメント仮説(英語版)は、言語モデルの能力と知識のほとんど全てが事前訓練中に学習されていることを示唆している。
我々はこれらの主張を再検討し、微調整例の増加とともにポストトレーニングのスケーリング行動を研究する。
- 参考スコア(独自算出の注目度): 0.9831489366502302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Superficial Alignment Hypothesis posits that almost all of a language model's abilities and knowledge are learned during pre-training, while post-training is about giving a model the right style and format. We re-examine these claims by empirically studying the scaling behavior of post-training with increasing finetuning examples and evaluating them using objective task-specific standardized benchmarks. Through experiments with the Llama-3, Mistral, and Llama-2 model families of multiple sizes, we observe that, similar to the pre-training scaling laws, post-training task performance scales as a power law against the number of finetuning examples. This power law relationship holds across a broad array of capabilities, including mathematical reasoning, coding, instruction following, and multihop-reasoning. In addition, for tasks like math and multihop reasoning, we observe that a handful of examples merely align the model stylistically but do not saturate performance on the benchmarks. Model performance is instead correlated with its reasoning ability and it improves significantly with more examples, illustrating the need for holistic evaluation programs leveraging objective benchmarks in addition to measurement of alignment to human preferences. We also observe that language models are not necessarily limited to using knowledge learned during pre-training. With appropriate post-training, a model's ability to integrate new knowledge greatly improves on downstream tasks like multihop question-answering. Taken together, these results shed new light on the Superficial Alignment Hypothesis, suggesting that it is, at best, an over-simplification.
- Abstract(参考訳): 表向きのアライメント仮説(英語版)は、言語モデルの能力と知識のほとんどすべてが事前トレーニング中に学習され、ポストトレーニングはモデルに正しいスタイルとフォーマットを与える、と仮定している。
我々は,これらの主張を再検討し,学習後のスケーリングの振る舞いを,微調整例の増加とともに実証的に研究し,客観的なタスク特化ベンチマークを用いて評価する。
複数サイズのLlama-3, Mistral, Llama-2モデルファミリーを用いた実験により, 学習前のスケーリング法則と同様に, 学習後のタスク性能は, ファインタニング例数に対するパワー則としてスケールすることを示した。
このパワーローの関係は、数学的推論、コーディング、命令追従、マルチホップ推論など、幅広い機能にまたがっている。
さらに、数学やマルチホップ推論のようなタスクでは、いくつかの例がスタイリスティックにモデルを整列させるだけで、ベンチマークのパフォーマンスが飽和しない。
モデル性能は、その推論能力と相関し、さらに多くの例で大幅に改善され、客観的なベンチマークを活用する総合的な評価プログラムの必要性に加えて、人間の嗜好への適応を測定することの必要性が説明される。
また,言語モデルが事前学習中に学習した知識に限ったものではないことも観察した。
適切なポストトレーニングによって、モデルが新しい知識を統合する能力は、マルチホップ質問応答のような下流タスクを大幅に改善する。
まとめると、これらの結果は表面配向仮説に新たな光を放ち、少なくとも過度に単純化されていることを示唆している。
関連論文リスト
- Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - A General Language Assistant as a Laboratory for Alignment [3.3598752405752106]
簡単なベースライン手法と,プロンプトなどの評価について検討する。
モデルサイズにより, 緩やかな介入による利点が増大し, 様々なアライメント評価に一般化され, 大規模モデルの性能を損なわないことがわかった。
本研究では,人間の嗜好を微調整する際のサンプル効率の向上を目標として,事前学習段階の選好モデルについて検討した。
論文 参考訳(メタデータ) (2021-12-01T22:24:34Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。