論文の概要: Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback
- arxiv url: http://arxiv.org/abs/2605.07977v1
- Date: Fri, 08 May 2026 16:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.206208
- Title: Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback
- Title(参考訳): リアルタイムフィードバック付きオンラインフェデレーションLLMファインチューニングにおけるアドバンテージ重み付きリファインメントによるセルフプレイ強化
- Authors: Seohyun Lee, Wenzhi Fang, Dong-Jun Han, Seyyedali Hosseinalipour, Christopher G. Brinton,
- Abstract要約: フェデレートされたフィードバックの微調整のための効率的なオンライン学習アルゴリズムSPEARを紹介する。
我々はSPEARを様々なベンチマークデータセットで検証し、最先端のベースラインと比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 37.79391516435725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have advanced feedback-based learning systems, whereby a foundation model is able to intake incoming feedback (e.g., a user) to self-improve, creating a self-loop system of training. However, existing works are limited in needing to consider an offline setup to allow for such feedback-based methods, and are further limited in the need of requiring privileged ground-truth contexts for training. Moreover, there is limited consideration of federated learning (FL), which is particularly well-suited for incorporating external feedback across large networks of end users, for example, but requires methods to be efficient for training on resource-constrained edge devices. Therefore, we introduce SPEAR (Self-Play Enhancement via Advantage-Weighted Refinement), an efficient online learning algorithm for federated LLM fine-tuning. SPEAR utilizes a feedback-guided self-play loop to construct naturally contrastive pairs per prompt which are utilized to be trained on (i) standard maximum likelihood on correct completions and (ii) confidence-weighted unlikelihood on tail tokens of incorrect completions. Without the need of expensive group generations and ground-truth contexts for training (i.e., only partial, non-answer feedback), in contrast with existing works, SPEAR can be trained both online and in a resource-efficient manner. We validate SPEAR across various benchmark datasets, demonstrating its superior performance in comparison to state-of-the-art baselines. The implementation code is publicly available at https://github.com/lee3296/SPEAR.
- Abstract(参考訳): 最近の研究は、フィードバックに基づく高度な学習システムであり、ファンデーションモデルは、フィードバック(例えば、ユーザ)を自己改善に取り込み、セルフループのトレーニングシステムを作成することができる。
しかし、既存の作業は、そのようなフィードバックベースのメソッドを可能にするためにオフライン設定を検討する必要が限られており、トレーニングに特権的な地道的コンテキストを必要とする必要がさらに制限されている。
さらに、例えばエンドユーザの大規模なネットワークに外部からのフィードバックを組み込むのに特に適しているが、リソース制約のあるエッジデバイス上でのトレーニングに効率的な方法を必要とする、連邦学習(FL)について限定的な考察がなされている。
そこで本稿では,SPEAR (Self-Play Enhancement via Advantage-Weighted Refinement)を提案する。
SPEARはフィードバック誘導型セルフプレイループを使用して、訓練に使用されるプロンプトごとに自然にコントラッシブなペアを構築する。
一 正しい完成の基準的最大度及び
(II)不正確な完了のテールトークンにおける信頼重み付き異性体
高価なグループ世代とトレーニングのための地味な文脈(部分的、非回答フィードバックのみ)を必要とせず、既存の作業とは対照的に、SPEARはオンラインとリソース効率の両方でトレーニングすることができる。
我々はSPEARを様々なベンチマークデータセットで検証し、最先端のベースラインと比較して優れた性能を示す。
実装コードはhttps://github.com/lee3296/SPEAR.comで公開されている。
関連論文リスト
- When Learning Hurts: Fixed-Pole RNN for Real-Time Online Training [58.25341036646294]
本研究では,再帰性極の学習がデータに有意な利点をもたらしない理由を解析的に検討し,実時間学習シナリオを実証的に提供する。
固定極ネットワークは、トレーニングの複雑さを低減し、オンラインリアルタイムタスクにより適していることを示す。
論文 参考訳(メタデータ) (2026-02-25T00:15:13Z) - Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Self-Contrastive Forward-Forward Algorithm [3.1361717406527667]
フォワードフォワード (FF) アルゴリズムは、レイヤーワイドの目的を最適化するためにフィードフォワード演算に依存する。
FFは、ほとんどの標準ベンチマークタスクで最先端のパフォーマンスに到達できなかった。
本稿では,この性能ギャップを解消するための競争訓練手法である,自己コントラストフォワード(SCFF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-17T22:58:20Z) - Online Bandit Learning with Offline Preference Data for Improved RLHF [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。