論文の概要: Improving Weak-to-Strong Generalization with Scalable Oversight and
Ensemble Learning
- arxiv url: http://arxiv.org/abs/2402.00667v1
- Date: Thu, 1 Feb 2024 15:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-02 15:04:51.924703
- Title: Improving Weak-to-Strong Generalization with Scalable Oversight and
Ensemble Learning
- Title(参考訳): スケーラブルな監視とアンサンブル学習による弱相関一般化の改善
- Authors: Jitao Sang, Yuhang Wang, Jing Zhang, Yanxu Zhu, Chao Kong, Junhong Ye,
Shuyu Wei and Jinlin Xiao
- Abstract要約: 本稿では,OpenAI の Wak-to-Strong Generalization (W2SG) に関する最近のスーパーアライメント研究について報告する。
Superalignmentは、複雑でリスクの高いタスクを扱う際に、ハイレベルなAIシステムが人間の価値観や意図と一貫していることを保証することに重点を置いている。
本研究は,W2SGフレームワーク下での2つのスーパーアライメントの位相をシミュレートする。
- 参考スコア(独自算出の注目度): 21.401598876308345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a follow-up study to OpenAI's recent superalignment work
on Weak-to-Strong Generalization (W2SG). Superalignment focuses on ensuring
that high-level AI systems remain consistent with human values and intentions
when dealing with complex, high-risk tasks. The W2SG framework has opened new
possibilities for empirical research in this evolving field. Our study
simulates two phases of superalignment under the W2SG framework: the
development of general superhuman models and the progression towards
superintelligence. In the first phase, based on human supervision, the quality
of weak supervision is enhanced through a combination of scalable oversight and
ensemble learning, reducing the capability gap between weak teachers and strong
students. In the second phase, an automatic alignment evaluator is employed as
the weak supervisor. By recursively updating this auto aligner, the
capabilities of the weak teacher models are synchronously enhanced, achieving
weak-to-strong supervision over stronger student models.We also provide an
initial validation of the proposed approach for the first phase. Using the SciQ
task as example, we explore ensemble learning for weak teacher models through
bagging and boosting. Scalable oversight is explored through two auxiliary
settings: human-AI interaction and AI-AI debate. Additionally, the paper
discusses the impact of improved weak supervision on enhancing weak-to-strong
generalization based on in-context learning. Experiment code and dataset will
be released at https://github.com/ADaM-BJTU/W2SG.
- Abstract(参考訳): 本稿では,OpenAI の Wak-to-Strong Generalization (W2SG) に関する最近のスーパーアライメント研究について報告する。
superalignmentは、複雑なハイリスクなタスクを扱う場合、ハイレベルなaiシステムが人間の価値や意図と一貫性を保つことに注力する。
W2SGフレームワークは、この進化分野における実証研究の新しい可能性を開いた。
本研究は,W2SGフレームワーク下での2つのスーパーアライメントの位相をシミュレートする。
第1フェーズでは、人間の監督に基づき、スケーラブルな監視とアンサンブル学習の組み合わせにより、弱い監督の質が向上し、弱い教師と強い生徒の能力格差が軽減される。
第2段階では、弱スーパーバイザとして自動アライメント評価器を用いる。
この自動整合器を再帰的に更新することにより、弱教師モデルの能力は同期的に向上し、より強力な学生モデルに対して弱い監督を達成し、第1フェーズにおける提案手法の早期検証も提供する。
例えば、sciqタスクを使用して、袋詰めとブースティングを通じて、弱い教師モデルのアンサンブル学習を探求する。
スケーラブルな監視は、人間とAIのインタラクションとAIとAIの議論という2つの補助的な設定を通じて行われる。
さらに、テキスト内学習に基づく弱体化の強化に弱体化が及ぼす影響についても論じる。
実験コードとデータセットはhttps://github.com/adam-bjtu/w2sgでリリースされる。
関連論文リスト
- Alice: Proactive Learning with Teacher's Demonstrations for Weak-to-Strong Generalization [69.96794098855938]
Weak-to-strong Generalization (W2SG)は、ますます有能な言語モデル(LLM)を監督するための有望なフレームワークを提供する。
伝統的なW2SG手法は受動的学習に依存しており、弱い教師は強い生徒を訓練するためにノイズの多いデモを提供する。
教師と生徒の相補的な知識を活用して学習プロセスを強化するフレームワークであるAliceを紹介した。
論文 参考訳(メタデータ) (2025-04-09T22:33:06Z) - How to Mitigate Overfitting in Weak-to-strong Generalization? [50.37526669608372]
Weak-to-strongの一般化は、弱いスーパーバイザーを通して強いモデルの能力を引き出すことを目的としている。
強いモデルは弱強一般化において顕著な過剰適合を示す。
本稿では,監視信号の品質と入力質問の品質を同時に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:32:39Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning [10.752609242505953]
従来のアライメント手法は、微調整モデルへの人間のフィードバックに依存している。
人間の理解を超越したアウトプットを持つ超人的モデルには、大きな課題がある。
近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。
論文 参考訳(メタデータ) (2024-10-16T14:40:32Z) - EnsemW2S: Can an Ensemble of LLMs be Leveraged to Obtain a Stronger LLM? [28.43206274079919]
弱強(w2s)一般化に対する革新的アプローチを提案する。
より単純なタスクで訓練された弱いモデルは、より複雑なタスクでより強力なモデルを協調的に監督することを示します。
既存のベースラインよりも最大14%向上し、バイナリ分類および生成タスクでは平均5%と4%改善した。
論文 参考訳(メタデータ) (2024-10-06T18:06:42Z) - Bayesian WeakS-to-Strong from Text Classification to Generation [14.897191979004782]
この研究は、人間の意見の多様性をシミュレートする弱いモデルのアンサンブルを探索することで、Weak-to-StrongからWeakS-to-Strongに拡張する。
信頼性スコアは、WeakS-to-Strong一般化を導くベイズ的アプローチを用いて推定される。
その結果,提案手法の有効性を学生モデルの信頼性に示し,スーパーアライメントの可能性を示した。
論文 参考訳(メタデータ) (2024-05-24T13:33:11Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。