論文の概要: Unsupervised Elicitation of Language Models
- arxiv url: http://arxiv.org/abs/2506.10139v1
- Date: Wed, 11 Jun 2025 19:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.416102
- Title: Unsupervised Elicitation of Language Models
- Title(参考訳): 言語モデルの教師なし励振
- Authors: Jiaxin Wen, Zachary Ankner, Arushi Somani, Peter Hase, Samuel Marks, Jacob Goldman-Wetzler, Linda Petrini, Henry Sleight, Collin Burns, He He, Shi Feng, Ethan Perez, Jan Leike,
- Abstract要約: 我々は,教師なしの新たなアルゴリズムである内部コヒーレンス最大化(ICM)を導入し,独自のラベルで事前学習した言語モデルを微調整する。
GSM8k-verification, TruthfulQA, and Alpaca reward modeling taskについて,本手法はゴールデン・インスペクションのトレーニング性能と一致した。
LMの能力が強大な超人であるタスクにおいて、この手法は人間のラベルのトレーニングよりもはるかに優れた能力を引き出すことができる。
- 参考スコア(独自算出の注目度): 37.00621880299302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To steer pretrained language models for downstream tasks, today's post-training paradigm relies on humans to specify desired behaviors. However, for models with superhuman capabilities, it is difficult or impossible to get high-quality human supervision. To address this challenge, we introduce a new unsupervised algorithm, Internal Coherence Maximization (ICM), to fine-tune pretrained language models on their own generated labels, \emph{without external supervision}. On GSM8k-verification, TruthfulQA, and Alpaca reward modeling tasks, our method matches the performance of training on golden supervision and outperforms training on crowdsourced human supervision. On tasks where LMs' capabilities are strongly superhuman, our method can elicit those capabilities significantly better than training on human labels. Finally, we show that our method can improve the training of frontier LMs: we use our method to train an unsupervised reward model and use reinforcement learning to train a Claude 3.5 Haiku-based assistant. Both the reward model and the assistant outperform their human-supervised counterparts.
- Abstract(参考訳): 下流タスクのための事前訓練された言語モデルを操るために、今日のポストトレーニングパラダイムは、人間に望ましい振る舞いを指定することに依存している。
しかし、超人的能力を持つモデルでは、高品質な人間の監督を得ることは困難または不可能である。
この課題に対処するために、我々は、新たに教師なしアルゴリズムである内部コヒーレンス最大化(ICM)を導入し、独自のラベルである \emph{without external supervision} で事前訓練された言語モデルを微調整する。
GSM8k-verification, TruthfulQA, and Alpaca reward modeling taskについて,本手法は,ゴールデン・インスペクティブ・トレーニングとクラウド・ソース・ヒューマン・インスペクティブ・トレーニングの成績とを一致させる。
LMの能力が強大な超人であるタスクにおいて、この手法は人間のラベルのトレーニングよりもはるかに優れた能力を引き出すことができる。
最後に,本手法がフロンティアLMのトレーニングを改善することを示し,この手法を用いて教師なし報酬モデルのトレーニングを行い,強化学習を用いてクロード3.5ハイクのアシスタントのトレーニングを行う。
報酬モデルとアシスタントの両方が、人間の監督されたモデルよりも優れています。
関連論文リスト
- Self-Rewarding Language Models [100.63658475137287]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。
反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文 参考訳(メタデータ) (2024-01-18T14:43:47Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。