論文の概要: Experience Sharing in Mutual Reinforcement Learning for Heterogeneous Language Models
- arxiv url: http://arxiv.org/abs/2605.07244v1
- Date: Fri, 08 May 2026 05:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.80805
- Title: Experience Sharing in Mutual Reinforcement Learning for Heterogeneous Language Models
- Title(参考訳): 不均一言語モデルの相互強化学習における経験共有
- Authors: Xiaoze Liu, Dhananjay Ram, Yuting Zhang, Zhaoyang Zhang, Wei Xia, Stefano Soatto,
- Abstract要約: 我々は,相互強化学習(Multual Reinforcement Learning)を紹介した。
このフレームワークは、共有エクスペリエンス交換(SEE)、マルチワークリソース割り当て(MWRA)、およびTokenizer Heterogeneity Layer(THL)を組み合わせる。
GRPO上の3つの制御されたプローブをインスタンス化する: Peer Rollout Pooling (PRP)によるデータレベルのロールアウト共有、Cross-Policy GRPO Advantage Sharing (XGRPO)による価値レベルのアドバンテージ共有、Success-Gated Transfer (SGT)による結果レベルの成功転送。
- 参考スコア(独自算出の注目度): 48.79781352398832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Mutual Reinforcement Learning, a framework for concurrent RL post-training in which heterogeneous LLM policies exchange typed experience while keeping separate parameters, objectives, and tokenizers. The framework combines a Shared Experience Exchange (SEE), Multi-Worker Resource Allocation (MWRA), and a Tokenizer Heterogeneity Layer (THL) that retokenizes text and aligns token-level traces across incompatible vocabularies. This substrate makes the experience-sharing design question operational across model families. We instantiate three controlled probes on top of GRPO: data-level rollout sharing via Peer Rollout Pooling (PRP), value-level advantage sharing via Cross-Policy GRPO Advantage Sharing (XGRPO), and outcome-level success transfer via Success-Gated Transfer (SGT). A contextual-bandit analysis characterizes their structural positions on a stability-support trade-off: PRP pays density-ratio variance and THL residual costs, XGRPO preserves on-policy actor support while changing scalar baselines, and SGT supplies a rescue-set score direction toward verified peer successes. In the evaluated regime, outcome-level sharing occupies the favorable point of this trade-off.
- Abstract(参考訳): マルチ強化学習(Multual Reinforcement Learning)は、多種多様なLLMポリシーが異なるパラメータ、目的、トークン化子を保持しながら型付き体験を交換する、並行RLポストトレーニングのためのフレームワークである。
このフレームワークは、共有エクスペリエンス交換(SEE)、マルチワークリソース割り当て(MWRA)、およびテキストを再トークン化し、互換性のない語彙間でトークンレベルのトレースを調整するTokenizer Heterogeneity Layer(THL)を組み合わせる。
この基板は、モデルファミリ間で経験共有設計問題を操作させる。
GRPO上でのデータレベルのロールアウト共有(PRP)、Cross-Policy GRPO Advantage Sharing(XGRPO)による価値レベルのアドバンテージ共有(XGRPO)、Success-Gated Transfer(SGT)による結果レベルの成功転送(SGT)という3つの制御されたプローブをインスタンス化する。
PRP は密度比分散と THL 残留コストを払い、XGRPO はスカラーベースラインを変更しながら、政治上のアクターサポートを保ち、SGT は、検証されたピア成功に向けて、救済セットスコアの方向を提供する。
評価された体制では、成果レベルの共有がこのトレードオフの好点を占める。
関連論文リスト
- Injecting Distributional Awareness into MLLMs via Reinforcement Learning for Deep Imbalanced Regression [15.47617293460676]
マルチモーダル大言語モデル (MLLM) は, 長期的目標分布下での数値回帰に苦慮する。
グループ相対政策最適化に基づく分散型強化学習フレームワークを提案する。
SFTと既存のMLLM回帰法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-05-02T11:49:03Z) - When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO [18.988527161000203]
グループ相対政策最適化(GRPO)は、推論モデルを訓練するための効果的な方法として登場した。
本稿では,GRPOの目的が正解率と正解率とのマージンを暗黙的に最大化することを示す。
本稿では,モデルが相互参照を成功させる機構であるバイラテラルコンテキストコンディショニング(BICC)を提案する。
論文 参考訳(メタデータ) (2026-03-13T16:25:02Z) - Heterogeneous Agent Collaborative Reinforcement Learning [52.99813668995983]
不均一エージェント協調強化学習(HACRL)
本稿では,このパラダイムに基づいて,サンプル利用とエージェント間の知識伝達を最大化するために,原則的なロールアウト共有を可能にする協調RLアルゴリズムであるHACPOを提案する。
多様な異種モデルの組み合わせと推論ベンチマークによる実験により、HACPOはすべてのエージェントを一貫して改善し、GSPOを平均3.3%上回り、ロールアウトコストの半分しか使っていないことが示された。
論文 参考訳(メタデータ) (2026-03-03T05:09:49Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - LLMs Can't Handle Peer Pressure: Crumbling under Multi-Agent Social Interactions [35.71511502901056]
大規模言語モデル(LLM)は、コラボレーションインテリジェンスのコンポーネントとして、マルチエージェントシステムにますます多くデプロイされている。
LLMが過去の印象からの信頼をいかに形成し、誤報に抵抗し、相互作用中にピアインプットを統合するかを検討する。
KAIROSは、クイズコンテストをシミュレーションするベンチマークで、信頼性の異なるピアエージェントを提示する。
論文 参考訳(メタデータ) (2025-08-24T09:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。