論文の概要: Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena
- arxiv url: http://arxiv.org/abs/2407.10627v1
- Date: Mon, 15 Jul 2024 11:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:31:11.868644
- Title: Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena
- Title(参考訳): Arena Learning: シミュレーションチャットボットアリーナによる後トレーニングのためのデータフライホイールの構築
- Authors: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Qingwei Lin, Jianguang Lou, Shifeng Chen, Yansong Tang, Weizhu Chen,
- Abstract要約: AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。
Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。
ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
- 参考スコア(独自算出の注目度): 126.70522244144088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the effectiveness of large language models (LLMs) presents substantial challenges. The method of conducting human-annotated battles in an online Chatbot Arena is a highly effective evaluative technique. However, this approach is limited by the costs and time required for human annotation. In this paper, we introduce Arena Learning, an innovative offline strategy designed to simulate these arena battles using AI-driven annotations to evaluate battle outcomes, thus facilitating the continuous improvement of the target model through both supervised fine-tuning and reinforcement learning. Arena Learning comprises two key elements. First, it ensures precise evaluations and maintains consistency between offline simulations and online competitions via WizardArena, a pipeline developed to accurately predict the Elo rankings of various models using a meticulously designed offline test set. Our results demonstrate that WizardArena's predictions closely align with those from the online Arena. Second, it involves the continuous improvement of training data based on the battle results and the refined model. We establish a data flywheel to iteratively update the training data by highlighting the weaknesses of the target model based on its battle results, enabling it to learn from the strengths of multiple different models. We apply Arena Learning to train our target model, WizardLM-$\beta$, and demonstrate significant performance enhancements across various metrics. This fully automated training and evaluation pipeline sets the stage for continuous advancements in various LLMs via post-training. Notably, Arena Learning plays a pivotal role in the success of WizardLM-2, and this paper serves both as an exploration of its efficacy and a foundational study for future discussions related to WizardLM-2 and its derivatives.
- Abstract(参考訳): 大規模言語モデル(LLM)の有効性を評価することは重大な課題である。
オンラインチャットボットアリーナにおける人手による戦闘の実施方法は非常に効果的な評価手法である。
しかし、このアプローチは人間のアノテーションに必要なコストと時間によって制限される。
本稿では、AIによるアノテーションを用いてこれらのアリーナ戦闘をシミュレートし、戦闘結果を評価するための革新的なオフライン戦略であるアレナ学習を紹介し、教師付き微調整学習と強化学習の両方を通じて目標モデルの継続的な改善を容易にする。
アリーナラーニングには2つの重要な要素がある。
まず、微妙に設計されたオフラインテストセットを使用して、さまざまなモデルのEloランキングを正確に予測するために開発されたパイプラインであるWizardArenaを通じて、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を維持する。
我々の結果は、WizardArenaの予測がオンラインアリーナの予測と密接に一致していることを示している。
第2に、戦闘結果と洗練されたモデルに基づいて、トレーニングデータの継続的な改善が伴う。
我々は、データフライホイールを構築し、その戦闘結果に基づいて目標モデルの弱点を強調し、訓練データを反復的に更新し、複数の異なるモデルの強みから学習できるようにする。
ターゲットモデルのWizardLM-$\beta$をトレーニングするためにArena Learningを適用し、さまざまなメトリクスで大幅なパフォーマンス向上を示します。
この完全に自動化されたトレーニングと評価パイプラインは、ポストトレーニングを通じて様々なLSMの継続的な進歩のステージを設定する。
特に,アリーナラーニングはWizardLM-2の成功において重要な役割を担い,本論文はWizardLM-2とそのデリバティブに関する今後の議論の基盤となる研究である。
関連論文リスト
- Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Improving Online Continual Learning Performance and Stability with
Temporal Ensembles [30.869268130955145]
オンライン連続学習における性能と安定性向上のためのモデルアンサンブルの効果について検討する。
テスト時の重み(EMA)の指数移動平均を計算するために,軽量時間アンサンブルを用いる。
論文 参考訳(メタデータ) (2023-06-29T09:53:24Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Perceiving the World: Question-guided Reinforcement Learning for
Text-based Games [64.11746320061965]
本稿では,環境に関する質問に答えることで,タスクやプーンアクションを自動的に分解する世界認識モジュールを提案する。
次に、強化学習から言語学習を分離する2段階学習フレームワークを提案し、サンプル効率をさらに向上させる。
論文 参考訳(メタデータ) (2022-03-20T04:23:57Z) - Accelerating Reinforcement Learning for Reaching using Continuous
Curriculum Learning [6.703429330486276]
我々は、強化学習(RL)訓練の加速と、多目標到達タスクの性能向上に重点を置いている。
具体的には、トレーニングプロセス中に要件を徐々に調整する精度ベースの継続的カリキュラム学習(PCCL)手法を提案する。
このアプローチは、シミュレーションと実世界のマルチゴールリーチ実験の両方において、ユニバーサルロボット5eを用いてテストされる。
論文 参考訳(メタデータ) (2020-02-07T10:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。