論文の概要: Team-Based Self-Play With Dual Adaptive Weighting for Fine-Tuning LLMs
- arxiv url: http://arxiv.org/abs/2605.09922v1
- Date: Mon, 11 May 2026 03:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.490172
- Title: Team-Based Self-Play With Dual Adaptive Weighting for Fine-Tuning LLMs
- Title(参考訳): 微調整LDMのための2重適応重み付きチームベースセルフプレイ
- Authors: Wu Li, Yigeng Zhou, Zesheng Shi, Yequan Wang, Min Zhang, Jing Li,
- Abstract要約: Team-based Self-Play with dual Adaptive Weighting (TPAW)は、完全に自己監督された設定でのアライメントを改善するために設計された新しいセルフプレイアルゴリズムである。
TPAWは、人間の監督を必要とせず、反復的に調整する。
- 参考スコア(独自算出の注目度): 24.816746511570244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent self-training approaches have reduced reliance on human-labeled data for aligning LLMs, they still face critical limitations: (i) sensitivity to synthetic data quality, leading to instability and bias amplification in iterative training; (ii) ineffective optimization due to a diminishing gap between positive and negative responses over successive training iterations. In this paper, we propose Team-based self-Play with dual Adaptive Weighting (TPAW), a novel self-play algorithm designed to improve alignment in a fully self-supervised setting. TPAW adopts a team-based framework in which the current policy model both collaborates with and competes against historical checkpoints, promoting more stable and efficient optimization. To further enhance learning, we design two adaptive weighting mechanisms: (i) a response reweighting scheme that adjusts the importance of target responses, and (ii) a player weighting strategy that dynamically modulates each team member's contribution during training. Initialized from a SFT model, TPAW iteratively refines alignment without requiring additional human supervision. Experimental results demonstrate that TPAW consistently outperforms existing baselines across various base models and LLM benchmarks. Our code is publicly available at https://github.com/lab-klc/TPAW.
- Abstract(参考訳): 最近の自己学習アプローチは、LLMを調整するための人間ラベルデータへの依存を減らしていますが、それでも重要な制限に直面しています。
一 合成データ品質に敏感で、反復訓練における不安定性及びバイアス増幅につながること。
(II) 連続訓練の繰り返しに対する正と負の反応のギャップが減ったことによる非効率な最適化。
本稿では、完全自己教師付き環境におけるアライメントを改善するために設計された新しい自己プレーアルゴリズムである、二重適応重み付きチームベースセルフプレイ(TPAW)を提案する。
TPAWはチームベースのフレームワークを採用しており、現在のポリシーモデルが過去のチェックポイントと協調して競合し、より安定的で効率的な最適化を促進する。
学習をさらに強化するために,2つの適応重み付け機構を設計する。
一 ターゲット応答の重要性を調整する応答再重み付け方式、及び
(II)トレーニング中の各チームメンバーの貢献を動的に調整するプレイヤー重み付け戦略。
SFTモデルから初期化され、TPAWは人間の監督を必要とせずに反復的にアライメントを洗練する。
実験の結果、TPAWは様々なベースモデルとLLMベンチマークで既存のベースラインを一貫して上回っていることがわかった。
私たちのコードはhttps://github.com/lab-klc/TPAW.comで公開されています。
関連論文リスト
- CoLLM: A Unified Framework for Co-execution of LLMs Federated Fine-tuning and Inference [33.14453252489961]
CoLLMは、FL PEFTと共有エッジレプリカとモデルパラメータの推論を統一するシステムである。
常に最先端のLLMシステムより優れており、最大で3倍高い出力を実現している。
論文 参考訳(メタデータ) (2026-03-31T09:49:47Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference [1.0091292967761423]
TIDEは、オンラインドラフト適応を直接高性能なLLM推論システムに統合する、サービスエンジニアリングネイティブフレームワークである。
TIDEは、推論中に生成されたターゲットモデルをトレーニング信号として再利用し、ターゲットモデルを再ロードすることなく、ゼロオーバーヘッドのドラフト適応を可能にする。
さまざまな現実世界のワークロードに対して、TIDEは静的投機的復号化よりも最大1.15倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2026-02-05T00:06:12Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。