論文の概要: Improving Weak-to-Strong Generalization with Scalable Oversight and
Ensemble Learning
- arxiv url: http://arxiv.org/abs/2402.00667v1
- Date: Thu, 1 Feb 2024 15:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:04:51.924703
- Title: Improving Weak-to-Strong Generalization with Scalable Oversight and
Ensemble Learning
- Title(参考訳): スケーラブルな監視とアンサンブル学習による弱相関一般化の改善
- Authors: Jitao Sang, Yuhang Wang, Jing Zhang, Yanxu Zhu, Chao Kong, Junhong Ye,
Shuyu Wei and Jinlin Xiao
- Abstract要約: 本稿では,OpenAI の Wak-to-Strong Generalization (W2SG) に関する最近のスーパーアライメント研究について報告する。
Superalignmentは、複雑でリスクの高いタスクを扱う際に、ハイレベルなAIシステムが人間の価値観や意図と一貫していることを保証することに重点を置いている。
本研究は,W2SGフレームワーク下での2つのスーパーアライメントの位相をシミュレートする。
- 参考スコア(独自算出の注目度): 21.401598876308345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a follow-up study to OpenAI's recent superalignment work
on Weak-to-Strong Generalization (W2SG). Superalignment focuses on ensuring
that high-level AI systems remain consistent with human values and intentions
when dealing with complex, high-risk tasks. The W2SG framework has opened new
possibilities for empirical research in this evolving field. Our study
simulates two phases of superalignment under the W2SG framework: the
development of general superhuman models and the progression towards
superintelligence. In the first phase, based on human supervision, the quality
of weak supervision is enhanced through a combination of scalable oversight and
ensemble learning, reducing the capability gap between weak teachers and strong
students. In the second phase, an automatic alignment evaluator is employed as
the weak supervisor. By recursively updating this auto aligner, the
capabilities of the weak teacher models are synchronously enhanced, achieving
weak-to-strong supervision over stronger student models.We also provide an
initial validation of the proposed approach for the first phase. Using the SciQ
task as example, we explore ensemble learning for weak teacher models through
bagging and boosting. Scalable oversight is explored through two auxiliary
settings: human-AI interaction and AI-AI debate. Additionally, the paper
discusses the impact of improved weak supervision on enhancing weak-to-strong
generalization based on in-context learning. Experiment code and dataset will
be released at https://github.com/ADaM-BJTU/W2SG.
- Abstract(参考訳): 本稿では,OpenAI の Wak-to-Strong Generalization (W2SG) に関する最近のスーパーアライメント研究について報告する。
superalignmentは、複雑なハイリスクなタスクを扱う場合、ハイレベルなaiシステムが人間の価値や意図と一貫性を保つことに注力する。
W2SGフレームワークは、この進化分野における実証研究の新しい可能性を開いた。
本研究は,W2SGフレームワーク下での2つのスーパーアライメントの位相をシミュレートする。
第1フェーズでは、人間の監督に基づき、スケーラブルな監視とアンサンブル学習の組み合わせにより、弱い監督の質が向上し、弱い教師と強い生徒の能力格差が軽減される。
第2段階では、弱スーパーバイザとして自動アライメント評価器を用いる。
この自動整合器を再帰的に更新することにより、弱教師モデルの能力は同期的に向上し、より強力な学生モデルに対して弱い監督を達成し、第1フェーズにおける提案手法の早期検証も提供する。
例えば、sciqタスクを使用して、袋詰めとブースティングを通じて、弱い教師モデルのアンサンブル学習を探求する。
スケーラブルな監視は、人間とAIのインタラクションとAIとAIの議論という2つの補助的な設定を通じて行われる。
さらに、テキスト内学習に基づく弱体化の強化に弱体化が及ぼす影響についても論じる。
実験コードとデータセットはhttps://github.com/adam-bjtu/w2sgでリリースされる。
関連論文リスト
- Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - A General Framework for Learning from Weak Supervision [97.4298482689398]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Alleviating Robust Overfitting of Adversarial Training With Consistency
Regularization [9.686724616328874]
対戦訓練(AT)は、ディープニューラルネットワーク(DNN)を敵の攻撃から守る最も効果的な方法の1つであることが証明されている。
強靭性は特定の段階で急激に低下し、常にATの間に存在する。
半教師付き学習の一般的なテクニックである一貫性の正規化は、ATと同じような目標を持ち、堅牢なオーバーフィッティングを軽減するために使用できる。
論文 参考訳(メタデータ) (2022-05-24T03:18:43Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。