論文の概要: EnsemW2S: Enhancing Weak-to-Strong Generalization with Large Language Model Ensembles
- arxiv url: http://arxiv.org/abs/2505.21959v1
- Date: Wed, 28 May 2025 04:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.41118
- Title: EnsemW2S: Enhancing Weak-to-Strong Generalization with Large Language Model Ensembles
- Title(参考訳): EnsemW2S:大規模言語モデルアンサンブルによる弱ストロング一般化の強化
- Authors: Aakriti Agrawal, Mucong Ding, Zora Che, Chenghao Deng, Anirudh Satheesh, Bang An, Bayan Bruss, John Langford, Furong Huang,
- Abstract要約: そこで我々は,弱い専門家を育成するための新しい手法を提案し,同じ限られた人間レベルのデータでトレーニングし,複雑な超人レベルのタスクに一般化できるようにする。
われわれのアプローチは textbfEnsemW2S と呼ばれ、トークンレベルのアンサンブル戦略を採用し、複数の弱い専門家を反復的に組み合わせている。
我々は,弱い専門家のアンサンブルと,それに続く強力な学生モデルの両方の分布内(ID)および分布外(OOD)データセットの一般化性能を広範囲に評価した。
- 参考スコア(独自算出の注目度): 32.189105375228294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With Large Language Models (LLMs) rapidly approaching and potentially surpassing human-level performance, it has become imperative to develop approaches capable of effectively supervising and enhancing these powerful models using smaller, human-level models exposed to only human-level data. We address this critical weak-to-strong (W2S) generalization challenge by proposing a novel method aimed at improving weak experts, by training on the same limited human-level data, enabling them to generalize to complex, super-human-level tasks. Our approach, called \textbf{EnsemW2S}, employs a token-level ensemble strategy that iteratively combines multiple weak experts, systematically addressing the shortcomings identified in preceding iterations. By continuously refining these weak models, we significantly enhance their collective ability to supervise stronger student models. We extensively evaluate the generalization performance of both the ensemble of weak experts and the subsequent strong student model across in-distribution (ID) and out-of-distribution (OOD) datasets. For OOD, we specifically introduce question difficulty as an additional dimension for defining distributional shifts. Our empirical results demonstrate notable improvements, achieving 4\%, and 3.2\% improvements on ID datasets and, upto 6\% and 2.28\% on OOD datasets for experts and student models respectively, underscoring the effectiveness of our proposed method in advancing W2S generalization.
- Abstract(参考訳): LLM(Large Language Models)が急速に人間レベルのパフォーマンスに接近し、潜在的に超越しているため、人間レベルのデータのみに露呈するより小さな人間レベルのモデルを使用して、これらの強力なモデルを効果的に監視し、拡張できるアプローチを開発することが不可欠になっている。
我々は、この重要な弱体化(W2S)一般化の課題に対処し、弱体化の専門家を育成するための新しい手法を提案し、同じ制限された人間レベルのデータでトレーニングし、それらが複雑で超人レベルのタスクに一般化できるようにする。
我々の手法は、トークンレベルのアンサンブル戦略を採用し、複数の弱い専門家を反復的に組み合わせ、前回のイテレーションで特定された欠点を体系的に解決する。
これらの弱いモデルを継続的に精錬することにより、より強力な学生モデルを監督する集団能力を著しく強化する。
我々は,弱い専門家のアンサンブルと,それに続く強力な学生モデルの両方の分布内(ID)および分布外(OOD)データセットの一般化性能を広範囲に評価した。
OODでは、分散シフトを定義するための追加の次元として、質問難易度を特に導入する。
実験の結果,IDデータセットでは4\%,3.2\%,OODデータセットでは6\%,学生モデルでは2.28\%に顕著な改善がみられ,W2S一般化に向けた提案手法の有効性が示された。
関連論文リスト
- Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - EnsemW2S: Can an Ensemble of LLMs be Leveraged to Obtain a Stronger LLM? [28.43206274079919]
弱強(w2s)一般化に対する革新的アプローチを提案する。
より単純なタスクで訓練された弱いモデルは、より複雑なタスクでより強力なモデルを協調的に監督することを示します。
既存のベースラインよりも最大14%向上し、バイナリ分類および生成タスクでは平均5%と4%改善した。
論文 参考訳(メタデータ) (2024-10-06T18:06:42Z) - Weak-to-Strong Reasoning [33.20094938292376]
我々は、強力なモデルを自律的に訓練データを洗練させるプログレッシブラーニングフレームワークを導入する。
3つの弱いモデルを用いてLlama2-70bの推論能力を大幅に向上させる。
この作業は、AI推論能力を強化するための、よりスケーラブルで洗練された戦略の道を開くものだ。
論文 参考訳(メタデータ) (2024-07-18T16:25:17Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。