論文の概要: $n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models
- arxiv url: http://arxiv.org/abs/2602.09173v1
- Date: Mon, 09 Feb 2026 20:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.237744
- Title: $n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models
- Title(参考訳): $n$-Musketeers:強化学習形態と言語モデル間のコラボレーション
- Authors: Ryozo Masukawa, Sanggeon Yun, Hyunwoo Oh, SuhgHeon Jeong, Raheeb Hassa, Hanning Chen, Wenjun Huang, Mahdi Imani, Pietro Mercati, Nathaniel D. Bastian, Mohsen Imani,
- Abstract要約: 複数の凍結したSLM専門家がトレーニング可能なアテンションインターフェースを通じて統合されるソフトな隠れ状態コラボレーションを導入する。
Reasoning GymとGSM8Kの実験は、この潜伏統合が強力なシングルモデルRLVRベースラインと競合していることを示している。
全体として、隠れ状態のコラボレーションは、凍結した専門家を活用するためのコンパクトなメカニズムを提供すると同時に、専門家の利用パターンとそのRLVR下での進化に対する観察窓を提供する。
- 参考スコア(独自算出の注目度): 17.293403543585413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in reinforcement learning with verifiable rewards (RLVR) shows that small, specialized language models (SLMs) can exhibit structured reasoning without relying on large monolithic LLMs. We introduce soft hidden-state collaboration, where multiple heterogeneous frozen SLM experts are integrated through their internal representations via a trainable attention interface. Experiments on Reasoning Gym and GSM8K show that this latent integration is competitive with strong single-model RLVR baselines. Ablations further reveal a dual mechanism of expert utilization: for simpler arithmetic domains, performance gains can largely be explained by static expert preferences, whereas more challenging settings induce increasingly concentrated and structured expert attention over training, indicating emergent specialization in how the router connects to relevant experts. Overall, hidden-state collaboration provides a compact mechanism for leveraging frozen experts, while offering an observational window into expert utilization patterns and their evolution under RLVR.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いた強化学習の最近の進歩は、小さな特殊言語モデル(SLM)が大きなモノリシックLLMに頼ることなく構造的推論を示すことを示す。
複数の異種冷凍SLM専門家がトレーニング可能なアテンションインタフェースを介して内部表現を通じて統合されるソフトな隠れ状態協調を導入する。
Reasoning GymとGSM8Kの実験は、この潜伏統合が強力なシングルモデルRLVRベースラインと競合していることを示している。
より単純な算術的なドメインでは、パフォーマンスの向上は静的な専門家の選好によって大きく説明できるが、より困難な設定は、トレーニングに対して集中的で構造化された専門家の注意を喚起し、ルータが関連する専門家と接続する方法の創発的な特殊化を示す。
全体として、隠れ状態のコラボレーションは、凍結した専門家を活用するためのコンパクトなメカニズムを提供すると同時に、専門家の利用パターンとそのRLVR下での進化に対する観察窓を提供する。
関連論文リスト
- ERNIE 5.0 Technical Report [244.36480708815316]
ERNIE 5.0は、テキスト、画像、ビデオ、オーディオをまたいだ統合されたマルチモーダル理解と生成のための統合された自己回帰基盤モデルである。
ERNIE 5.0は、多様なリソース制約下での大規模デプロイメントの実践的な課題に対処するため、新しい弾力性トレーニングパラダイムを採用している。
ERNIE 5.0は、複数のモードで強い、バランスの取れた性能を実現する。
論文 参考訳(メタデータ) (2026-02-04T16:18:15Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time [35.31371938688921]
テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、大規模言語モデル(LLM)の推論能力を高める。
本稿では,エキスパートアクティベーションを検索空間の制御可能な次元に高めるTTS戦略であるDynamic Experts Search (DES)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:49:10Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Astrea: A MOE-based Visual Understanding Model with Progressive Alignment [10.943104653307294]
マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。
本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:44:52Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。