論文の概要: A transfer learning framework for weak-to-strong generalization
- arxiv url: http://arxiv.org/abs/2405.16236v2
- Date: Thu, 28 Nov 2024 14:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:39.431357
- Title: A transfer learning framework for weak-to-strong generalization
- Title(参考訳): 弱強一般化のための移動学習フレームワーク
- Authors: Seamus Somerstep, Felipe Maia Polo, Moulinath Banerjee, Ya'acov Ritov, Mikhail Yurochkin, Yuekai Sun,
- Abstract要約: LLMを超人的能力と整合させることが、その能力を劣化させることなく可能であるかどうかは不明である。
これは弱強一般化問題の例である。
我々は、事前学習されたLLMから潜在知識を引き出すことにより、弱強一般化が可能であることを証明した。
- 参考スコア(独自算出の注目度): 38.55982453315567
- License:
- Abstract: Modern large language model (LLM) alignment techniques rely on human feedback, but it is unclear whether these techniques fundamentally limit the capabilities of aligned LLMs. In particular, it is unknown if it is possible to align (stronger) LLMs with superhuman capabilities with (weaker) human feedback without degrading their capabilities. This is an instance of the weak-to-strong generalization problem: using feedback from a weaker (less capable) model to train a stronger (more capable) model. We prove that weak-to-strong generalization is possible by eliciting latent knowledge from pre-trained LLMs. In particular, we cast the weak-to-strong generalization problem as a transfer learning problem in which we wish to transfer a latent concept prior from a weak model to a strong pre-trained model. We prove that a naive fine-tuning approach suffers from fundamental limitations, but an alternative refinement-based approach suggested by the problem structure provably overcomes the limitations of fine-tuning. Finally, we demonstrate the practical applicability of the refinement approach in multiple LLM alignment tasks.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)のアライメント技術は人間のフィードバックに依存しているが、これらの手法が整列 LLM の能力を根本的に制限するかどうかは不明である。
特に、LLMを超人的な能力と人間のフィードバックと整合させることが、その能力を低下させることなく可能かどうかは不明である。
これは弱い(非有能な)モデルからのフィードバックを使ってより強い(より有能な)モデルを訓練する、弱から強の一般化問題の例である。
我々は、事前学習されたLLMから潜在知識を引き出すことにより、弱強一般化が可能であることを証明した。
特に,弱-強一般化問題を伝達学習問題として,弱いモデルから強い事前学習モデルに先立って潜在概念を移行したいと考える。
直感的な微調整アプローチは基本的な制限に悩まされるが、問題構造によって提案される代替の精細化に基づくアプローチは、確実に微調整の限界を克服する。
最後に,複数のLCMアライメントタスクにおける改良手法の適用性を示す。
関連論文リスト
- Understanding the Capabilities and Limitations of Weak-to-Strong Generalization [40.793180521446466]
弱強一般化に関する理論的知見を提供する。
弱いモデルは強力な一般化性能を示し、よく校正された予測を維持するべきである。
我々は、Charikar et al. (2024) の業績を、Kullback-Leibler の発散に基づく損失関数に拡張する。
論文 参考訳(メタデータ) (2025-02-03T15:48:28Z) - Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Your Weak LLM is Secretly a Strong Teacher for Alignment [19.33906256866585]
既存のアライメントフレームワークは、高価な人的労力または高い計算コストの形で制約を提示します。
本稿では,上位層モデルよりも資源集約度が低い弱いLLMを用いた,有望な中間層を探索する。
弱いLLMは、完全に注釈付けされたデータに匹敵する、あるいは超えるフィードバックを提供することができる。
論文 参考訳(メタデータ) (2024-09-13T13:24:52Z) - Improving Weak-to-Strong Generalization with Reliability-Aware Alignment [22.754757518792395]
大規模言語モデル(LLM)は、多くの自然言語タスクにおいて急速に進歩し、人間の能力を上回っている。
「超配向」問題には弱強一般化の強化が必要である。
本稿では、弱い監視信号の信頼性を伴って、弱い対強の一般化を改善する手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T09:37:34Z) - Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。