論文の概要: Elo-Evolve: A Co-evolutionary Framework for Language Model Alignment
- arxiv url: http://arxiv.org/abs/2602.13575v1
- Date: Sat, 14 Feb 2026 03:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.215216
- Title: Elo-Evolve: A Co-evolutionary Framework for Language Model Alignment
- Title(参考訳): Elo-Evolve: 言語モデルアライメントのための共進化的フレームワーク
- Authors: Jing Zhao, Ting Zhen, Junwei bao, Hongfei Jiang, Yang song,
- Abstract要約: 大規模言語モデル(LLM)の現在のアライメント手法は、大量の人間の好みデータを静的な絶対的な報酬関数に圧縮することに依存している。
適応対向プール内の動的マルチエージェント競合としてアライメントを再定義する,共進化的フレームワークであるElo-Evolveを紹介する。
- 参考スコア(独自算出の注目度): 9.926056056629239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current alignment methods for Large Language Models (LLMs) rely on compressing vast amounts of human preference data into static, absolute reward functions, leading to data scarcity, noise sensitivity, and training instability. We introduce Elo-Evolve, a co-evolutionary framework that redefines alignment as dynamic multi-agent competition within an adaptive opponent pool. Our approach makes two key innovations: (1) eliminating Bradley-Terry model dependencies by learning directly from binary win/loss outcomes in pairwise competitions, and (2) implementing Elo-orchestrated opponent selection that provides automatic curriculum learning through temperature-controlled sampling. We ground our approach in PAC learning theory, demonstrating that pairwise comparison achieves superior sample complexity and empirically validate a 4.5x noise reduction compared to absolute scoring approaches. Experimentally, we train a Qwen2.5-7B model using our framework with opponents including Qwen2.5-14B, Qwen2.5-32B, and Qwen3-8B models. Results demonstrate a clear performance hierarchy: point-based methods < static pairwise training < Elo-Evolve across Alpaca Eval 2.0 and MT-Bench, validating the progressive benefits of pairwise comparison and dynamic opponent selection for LLM alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)の現在のアライメント手法は、大量の人間の好みデータを静的な絶対的な報酬関数に圧縮することに依存しており、データ不足、ノイズ感度、トレーニング不安定性につながっている。
適応対向プール内の動的マルチエージェント競合としてアライメントを再定義する,共進化的フレームワークであるElo-Evolveを紹介する。
提案手法は,(1)二者対決の結果から直接学習することでBradley-Terryモデル依存を排除し,(2)温度制御サンプリングによる自動カリキュラム学習を行うElo-orchestrated対戦者選択を実装した。
我々はPAC学習理論にアプローチを基礎として、ペアワイズ比較がより優れたサンプリング複雑性を実現し、絶対的なスコアリング手法と比較して4.5倍のノイズ低減を実証的に検証した。
実験では,Qwen2.5-14B,Qwen2.5-32B,Qwen3-8B モデルなどを用いてQwen2.5-7Bモデルをトレーニングした。
点ベースメソッド < 静的ペアワイドトレーニング < アルパカ・エスバル2.0とMT-ベンチをまたいだエロ・エボレーブ, LLMアライメントにおけるペアワイド比較と動的反対選択の進歩的な利点を検証した。
関連論文リスト
- LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - DualReward: A Dynamic Reinforcement Learning Framework for Cloze Tests Distractor Generation [0.4660328753262075]
DualRewardは、クローゼテストにおける自動イントラクタ生成のための新しい強化学習フレームワークである。
文レベル (CLOTH-F) と文レベル (MCQ) のクローゼテストデータセットについて検討した。
論文 参考訳(メタデータ) (2025-07-16T03:39:36Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Joint Training for Selective Prediction [5.662924503089369]
選択予測法は、分類器の出力をいつ採用するか、人間に延期するかを決定する。
以前の方法の1つは、エンジニアリングされた特徴に基づいて遅延モデルを学習することである。
分類器モジュールが使用する学習表現と学習遅延ポリシーを同時に最適化する新しい共同学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T15:28:26Z) - Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models [0.0]
本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。
我々は,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ配信に適用する。
さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。
論文 参考訳(メタデータ) (2024-05-23T11:08:35Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Adaptive Consistency Regularization for Semi-Supervised Transfer
Learning [31.66745229673066]
我々は,半教師付き学習と移動学習を共同で検討し,より実践的で競争的なパラダイムへと導いた。
事前学習した重みとラベルなしの目標サンプルの両方の価値をよりよく活用するために、適応整合正則化を導入する。
提案手法は,Pseudo Label,Mean Teacher,MixMatchといった,最先端の半教師付き学習技術より優れた適応整合性正規化を実現する。
論文 参考訳(メタデータ) (2021-03-03T05:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。