論文の概要: Bayesian WeakS-to-Strong from Text Classification to Generation
- arxiv url: http://arxiv.org/abs/2406.03199v2
- Date: Wed, 02 Oct 2024 08:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:46.932682
- Title: Bayesian WeakS-to-Strong from Text Classification to Generation
- Title(参考訳): テキスト分類から生成までのベイズ弱S-to-Strong
- Authors: Ziyun Cui, Ziyang Zhang, Wen Wu, Guangzhi Sun, Chao Zhang,
- Abstract要約: この研究は、人間の意見の多様性をシミュレートする弱いモデルのアンサンブルを探索することで、Weak-to-StrongからWeakS-to-Strongに拡張する。
信頼性スコアは、WeakS-to-Strong一般化を導くベイズ的アプローチを用いて推定される。
その結果,提案手法の有効性を学生モデルの信頼性に示し,スーパーアライメントの可能性を示した。
- 参考スコア(独自算出の注目度): 14.897191979004782
- License:
- Abstract: Advances in large language models raise the question of how alignment techniques will adapt as models become increasingly complex and humans will only be able to supervise them weakly. Weak-to-Strong mimics such a scenario where weak model supervision attempts to harness the full capabilities of a much stronger model. This work extends Weak-to-Strong to WeakS-to-Strong by exploring an ensemble of weak models which simulate the variability in human opinions. Confidence scores are estimated using a Bayesian approach to guide the WeakS-to-Strong generalization. Furthermore, we extend the application of WeakS-to-Strong from text classification tasks to text generation tasks where more advanced strategies are investigated for supervision. Moreover, direct preference optimization is applied to advance the student model's preference learning, beyond the basic learning framework of teacher forcing. Results demonstrate the effectiveness of the proposed approach for the reliability of a strong student model, showing potential for superalignment.
- Abstract(参考訳): 大規模言語モデルの進歩は、モデルがますます複雑になり、人間が弱く監視できるようになるにつれて、アライメントテクニックがどのように適応するかという疑問を提起する。
Weak-to-Strongは、弱いモデルの監督がより強力なモデルの完全な能力を活用しようとするシナリオを模倣している。
この研究は、人間の意見の多様性をシミュレートする弱いモデルのアンサンブルを探索することで、Weak-to-StrongからWeakS-to-Strongに拡張する。
信頼性スコアは、WeakS-to-Strong一般化を導くベイズ的アプローチを用いて推定される。
さらに,テキスト分類タスクからテキスト生成タスクへのWeakS-to-Strongの適用を拡張し,より先進的な手法を監督のために検討する。
さらに、教師強制の基本的な学習枠組みを超えて、生徒モデルの嗜好学習を進めるために、直接選好最適化を適用した。
提案手法の有効性を学生モデルの信頼性に示し,スーパーアライメントの可能性を示した。
関連論文リスト
- Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning [10.752609242505953]
従来のアライメント手法は、微調整モデルへの人間のフィードバックに依存している。
人間の理解を超越したアウトプットを持つ超人的モデルには、大きな課題がある。
近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。
論文 参考訳(メタデータ) (2024-10-16T14:40:32Z) - Weak-to-Strong Reasoning [33.20094938292376]
我々は、強力なモデルを自律的に訓練データを洗練させるプログレッシブラーニングフレームワークを導入する。
3つの弱いモデルを用いてLlama2-70bの推論能力を大幅に向上させる。
この作業は、AI推論能力を強化するための、よりスケーラブルで洗練された戦略の道を開くものだ。
論文 参考訳(メタデータ) (2024-07-18T16:25:17Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Improving Weak-to-Strong Generalization with Scalable Oversight and
Ensemble Learning [21.401598876308345]
本稿では,OpenAI の Wak-to-Strong Generalization (W2SG) に関する最近のスーパーアライメント研究について報告する。
Superalignmentは、複雑でリスクの高いタスクを扱う際に、ハイレベルなAIシステムが人間の価値観や意図と一貫していることを保証することに重点を置いている。
本研究は,W2SGフレームワーク下での2つのスーパーアライメントの位相をシミュレートする。
論文 参考訳(メタデータ) (2024-02-01T15:30:19Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。