論文の概要: Weak-to-Strong Reasoning
- arxiv url: http://arxiv.org/abs/2407.13647v1
- Date: Thu, 18 Jul 2024 16:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:41:26.056414
- Title: Weak-to-Strong Reasoning
- Title(参考訳): Weak-to-Strong Reasoning
- Authors: Yuqing Yang, Yan Ma, Pengfei Liu,
- Abstract要約: 我々は、強力なモデルを自律的に訓練データを洗練させるプログレッシブラーニングフレームワークを導入する。
3つの弱いモデルを用いてLlama2-70bの推論能力を大幅に向上させる。
この作業は、AI推論能力を強化するための、よりスケーラブルで洗練された戦略の道を開くものだ。
- 参考スコア(独自算出の注目度): 33.20094938292376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When large language models (LLMs) exceed human-level capabilities, it becomes increasingly challenging to provide full-scale and accurate supervisions for these models. Weak-to-strong learning, which leverages a less capable model to unlock the latent abilities of a stronger model, proves valuable in this context. Yet, the efficacy of this approach for complex reasoning tasks is still untested. Furthermore, tackling reasoning tasks under the weak-to-strong setting currently lacks efficient methods to avoid blindly imitating the weak supervisor including its errors. In this paper, we introduce a progressive learning framework that enables the strong model to autonomously refine its training data, without requiring input from either a more advanced model or human-annotated data. This framework begins with supervised fine-tuning on a selective small but high-quality dataset, followed by preference optimization on contrastive samples identified by the strong model itself. Extensive experiments on the GSM8K and MATH datasets demonstrate that our method significantly enhances the reasoning capabilities of Llama2-70b using three separate weak models. This method is further validated in a forward-looking experimental setup, where Llama3-8b-instruct effectively supervises Llama3-70b on the highly challenging OlympicArena dataset. This work paves the way for a more scalable and sophisticated strategy to enhance AI reasoning powers. All relevant code and resources are available in \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning}.
- Abstract(参考訳): 大規模言語モデル(LLM)が人間レベルの能力を超えると、これらのモデルに対してより大規模かつ正確な監視を提供することがますます困難になる。
弱強学習(Weak-to-strong learning)は、より能力の低いモデルを利用して、強いモデルの潜在能力を解き放つ。
しかし、複雑な推論タスクに対するこのアプローチの有効性はまだ検証されていない。
さらに、現在、弱強条件下での推論タスクに対処するには、エラーを含む弱いスーパーバイザーを盲目的に模倣するのを避けるための効率的な方法が欠如している。
本稿では,より高度なモデルや人手による注釈付きデータからの入力を必要とせず,強力なモデルを自律的に訓練データを洗練させるための,進歩的学習フレームワークを提案する。
このフレームワークは、選択的に小さいが高品質なデータセットの教師付き微調整から始まり、続いて強いモデル自体によって識別される対照的なサンプルの優先順位最適化を行う。
GSM8KとMATHデータセットの大規模な実験により、3つの弱いモデルを用いてLlama2-70bの推論能力を著しく向上することが示された。
この方法は、Llama3-8b-instructが、高度に挑戦するオリンピックアリーナのデータセット上で、Llama3-70bを効果的に監督する、前方的な実験装置でさらに検証されている。
この作業は、AI推論能力を強化するための、よりスケーラブルで洗練された戦略の道を開くものだ。
すべての関連コードとリソースは \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning} で利用可能である。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Forgetting, Ignorance or Myopia: Revisiting Key Challenges in Online Continual Learning [29.65600202138321]
高速なデータストリーム環境では、遅いモデルに対応するためにデータが停止しない。
モデルの無知: OCLのシングルパスの性質は、制約付きトレーニング時間内で効果的な機能を学ぶためにモデルに挑戦する。
モデルのミオピア:OCLの局所的な学習特性は、過度に単純化されたタスク固有の機能を採用するモデルに導かれる。
論文 参考訳(メタデータ) (2024-09-28T05:24:56Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Dyna-bAbI: unlocking bAbI's potential with dynamic synthetic
benchmarking [16.109330335379962]
Dyna-bAbIは動的フレームワークであり、bAbIのタスク生成を細かく制御する。
構成一般化を必要とする3つの新しいタスクを構築することで、私たちのアイデアを実証する。
論文 参考訳(メタデータ) (2021-11-30T20:36:56Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。