論文の概要: Revisiting Weak-to-Strong Generalization in Theory and Practice: Reverse KL vs. Forward KL
- arxiv url: http://arxiv.org/abs/2502.11107v1
- Date: Sun, 16 Feb 2025 12:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:44.375142
- Title: Revisiting Weak-to-Strong Generalization in Theory and Practice: Reverse KL vs. Forward KL
- Title(参考訳): 理論と実践における弱-強一般化の再考:逆KL対フォワードKL
- Authors: Wei Yao, Wenkai Yang, Ziqiao Wang, Yankai Lin, Yong Liu,
- Abstract要約: 我々は, 前方KL分岐を逆KL分岐に置き換える理論的基礎的アプローチを提案する。
逆KL発散のゼロ強制効果は、高信頼の予測を優先する。
逆KLと逆クロスエントロピーは、強いモデルがフォワードKLと標準クロスエントロピーで訓練されたモデルより一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 40.793180521446466
- License:
- Abstract: As large language models advance toward superhuman performance, ensuring their alignment with human values and abilities grows increasingly complex. Weak-to-strong generalization offers a promising approach by leveraging predictions from weaker models to guide stronger systems, but its effectiveness could be constrained by the inherent noise and inaccuracies in these weak predictions. To address this, we propose a theoretically grounded approach that replaces forward KL divergence-whose mass-covering behavior risks overfitting to imperfect weak signals-with reverse KL divergence. Reverse KL divergence's zero-forcing effect prioritizes high-confidence predictions, effectively mitigating the influence of unreliable weak supervision. Theoretically, we extend existing bounds and derive tighter lower bounds for both forward and reverse KL divergence, establishing that reverse KL achieves at least comparable guarantees to forward KL. Notably, when a sufficiently pre-trained strong model is fine-tuned on the last layer, reverse KL uniquely guarantees that it outperforms its weak supervisor by the magnitude of their disagreement-a guarantee that forward KL cannot provide. Empirically, we demonstrate that reverse KL and reverse cross-entropy enable strong models to consistently outperform those trained with forward KL and standard cross-entropy across most settings, highlighting the practical advantages of these reverse losses.
- Abstract(参考訳): 大規模な言語モデルが超人的パフォーマンスに向かって進むにつれ、人間の価値観や能力との整合性はますます複雑化する。
弱強一般化は、より弱いモデルからの予測を利用してより強いシステムを導くという有望なアプローチを提供するが、その効果はこれらの弱い予測の固有のノイズや不正確さによって制約される可能性がある。
そこで本研究では,KL偏差を逆KL偏差で不完全な信号に過度に適応する,前方KL偏差を補う理論的なアプローチを提案する。
逆KL発散のゼロ強制効果は、信頼性の高い予測を優先し、信頼性の低い監督の影響を効果的に緩和する。
理論的には、既存の境界を拡張して、前方および後方のKL発散に対してより厳密な下界を導出し、逆KLが少なくともKLを前進させる保証を達成することを確約する。
特に、十分に事前訓練された強モデルが最終層上で微調整された場合、逆KLは、その不一致の大きさによって弱スーパーバイザを上回ることを一意に保証する。
実験的に、逆KLと逆クロスエントロピーは、強いモデルが、ほとんどの設定において、前方KLと標準クロスエントロピーで訓練されたモデルよりも一貫して優れていることを実証し、これらの逆損失の実用的利点を浮き彫りにしている。
関連論文リスト
- SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF [22.88031166401938]
本稿では、より柔軟でより良い位置参照モデルを作成することにより、制限を克服する新しいアプローチであるSALSAを提案する。
SALSAは、より良い探索を奨励し、より高い報酬を達成し、モデルの堅牢性、アウト・オブ・ディストリビューション、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-11-04T04:53:43Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models [18.870276152694245]
Kullback-Leiber分散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。
以前のアサーションとは対照的に、逆クルバック・リブラー(英語版)(RKL)の発散はモード探索であり、したがって平均シーキング前方クルバック・リブラー(英語版)(FKL)の発散よりも好ましい。
本稿では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:40:17Z) - Unveiling Vulnerabilities of Contrastive Recommender Systems to Poisoning Attacks [48.911832772464145]
コントラスト学習(CL)は近年,レコメンダシステムの領域で注目されている。
本稿では,CLをベースとしたレコメンデータシステムの脆弱性を明らかにする。
論文 参考訳(メタデータ) (2023-11-30T04:25:28Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Causality-oriented robustness: exploiting general additive interventions [3.871660145364189]
本稿では因果性指向のロバスト性に着目し,不変勾配(DRIG)を用いた分布ロバスト性を提案する。
線形環境では、DRIGがデータ依存の分布シフトのクラスの中で頑健な予測を得られることを証明している。
我々は、予測性能をさらに向上させるために、半教師付きドメイン適応設定にアプローチを拡張した。
論文 参考訳(メタデータ) (2023-07-18T16:22:50Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。