論文の概要: Contrastive Weak-to-strong Generalization
- arxiv url: http://arxiv.org/abs/2510.07884v1
- Date: Thu, 09 Oct 2025 07:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.932446
- Title: Contrastive Weak-to-strong Generalization
- Title(参考訳): 対照的な弱-強一般化
- Authors: Houcheng Jiang, Junfeng Fang, Jiaxin Wu, Tianyu Zhang, Chen Gao, Yong Li, Xiang Wang, Xiangnan He, Yang Deng,
- Abstract要約: 本稿では,弱強一般化を推し進めるため,Contrastive Weak-to-Strong Generalization (ConG)を提案する。
このフレームワークは、より高品質なサンプルを生成するために、事前調整後の弱いモデル間の対照的な復号を用いる。
- 参考スコア(独自算出の注目度): 50.5986177336082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weak-to-strong generalization provides a promising paradigm for scaling large language models (LLMs) by training stronger models on samples from aligned weaker ones, without requiring human feedback or explicit reward modeling. However, its robustness and generalization are hindered by the noise and biases in weak-model outputs, which limit its applicability in practice. To address this challenge, we leverage implicit rewards, which approximate explicit rewards through log-likelihood ratios, and reveal their structural equivalence with Contrastive Decoding (CD), a decoding strategy shown to reduce noise in LLM generation. Building on this connection, we propose Contrastive Weak-to-Strong Generalization (ConG), a framework that employs contrastive decoding between pre- and post-alignment weak models to generate higher-quality samples. This approach enables more reliable capability transfer, denoising, and improved robustness, substantially mitigating the limitations of traditional weak-to-strong methods. Empirical results across different model families confirm consistent improvements, demonstrating the generality and effectiveness of ConG. Taken together, our findings highlight the potential of ConG to advance weak-to-strong generalization and provide a promising pathway toward AGI.
- Abstract(参考訳): Weak-to-strongの一般化は、人間のフィードバックや明確な報酬モデリングを必要とせず、整列した弱いモデルからより強力なモデルをトレーニングすることで、大きな言語モデル(LLM)をスケールするための有望なパラダイムを提供する。
しかし、その堅牢性と一般化は弱いモデル出力のノイズとバイアスによって妨げられ、実際には適用性を制限する。
この課題に対処するために、暗黙の報酬を利用する。これは対数類似率による明示的な報酬を近似し、LLM生成におけるノイズを低減するための復号戦略であるContrastive Decoding (CD) とそれらの構造的等価性を明らかにする。
この接続を基盤としてContrastive Weak-to-Strong Generalization(ConG)を提案する。
このアプローチにより、より信頼性の高いキャパシティ転送、デノイング、ロバスト性の向上が可能になり、従来の弱いストロングメソッドの制限を大幅に緩和する。
モデルファミリ間の実験結果から一貫した改善が確認され,ConGの汎用性と有効性が確認された。
以上の結果から,ConGが弱体化を推し進め,AGIへの道筋を示す可能性が示唆された。
関連論文リスト
- AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - When Shift Happens - Confounding Is to Blame [21.028845817427825]
経験的リスク最小化は、最先端のアウト・オブ・ディストリビューションの一般化手法に匹敵する、あるいは超越する可能性があることを示す。
我々はこの現象を隠された共起によるものとみなす。
私たちは、隠れた共同創設者のためのプロキシで強化されたモデルが、隠れた共同設立のシフトによって引き起こされる課題を緩和できることを示します。
論文 参考訳(メタデータ) (2025-05-27T16:50:44Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Enhancing NLP Robustness and Generalization through LLM-Generated Contrast Sets: A Scalable Framework for Systematic Evaluation and Adversarial Training [0.0]
モデルロバスト性を評価し改善するために、3,000サンプルのコントラストセットを作成します。
これらのコントラストの微調整は、体系的に摂動された例の性能を高め、標準テスト精度を維持し、新しい摂動の一般化を緩やかに改善した。
論文 参考訳(メタデータ) (2025-03-09T14:52:53Z) - How to Mitigate Overfitting in Weak-to-strong Generalization? [50.37526669608372]
Weak-to-strongの一般化は、弱いスーパーバイザーを通して強いモデルの能力を引き出すことを目的としている。
強いモデルは弱強一般化において顕著な過剰適合を示す。
本稿では,監視信号の品質と入力質問の品質を同時に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:32:39Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。
我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-18T02:54:41Z) - Generating Less Certain Adversarial Examples Improves Robust Generalization [22.00283527210342]
本稿では,対人訓練における頑健なオーバーフィット現象を再考する。
我々は、敵の例を予測する際の過信が潜在的な原因であると主張している。
本稿では, モデルが予測するロジットの分散を, 逆数例で捉えた逆数確かさの形式的定義を提案する。
論文 参考訳(メタデータ) (2023-10-06T19:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。