論文の概要: KALAVAI: Predicting When Independent Specialist Fusion Works -- A Quantitative Model for Post-Hoc Cooperative LLM Training
- arxiv url: http://arxiv.org/abs/2603.22755v1
- Date: Tue, 24 Mar 2026 03:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.279864
- Title: KALAVAI: Predicting When Independent Specialist Fusion Works -- A Quantitative Model for Post-Hoc Cooperative LLM Training
- Title(参考訳): KALAVAI:独立系専門職の核融合作業の予測 - ホック後のLLMトレーニングの定量的モデル-
- Authors: Ramchand Kumaresan,
- Abstract要約: 独立した訓練を受けたドメインスペシャリストは、個々のスペシャリストを上回るパフォーマンスを持つ単一のモデルに、ポストホックに融合することができる。
KALAVAIプロトコルでは、コントリビュータが個別に共有チェックポイントの微調整を行い、軽量なMoEルーティング(500ステップ)を提出する。
- 参考スコア(独自算出の注目度): 3.151184728006369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Independently trained domain specialists can be fused post-hoc into a single model that outperforms any individual specialist, and the gain is predictable: gain = 0.82 x divergence - 2.72 (R^2 = 0.856, n=6, 3-26% divergence). This enables practitioners to estimate cooperative value before committing compute. Below ~3.3% divergence, gains approach zero.In the KALAVAI protocol, contributors fine-tune copies of a shared checkpoint independently, then submit for lightweight MoE routing (500 steps). Gains are consistent: +7.72% at 410M (+/-0.02%, 3 seeds), +7.49% at 1B (+/-0.01%, 3 seeds), +6.53% at 6.9B, each over the best specialist. The router matches domain-oracle routing within <10^{-5} nats. Cross-lingual fusion (Tamil/Yoruba/Welsh/Code) achieves +21.76%, with Yoruba perplexity falling 41.9 to 7.7. A 20-contributor federation achieves +16.71% (+/-0.07pp, 3 seeds).Three requirements bound the protocol. Shared initialisation is necessary: checkpoint mismatch degrades routing. Frozen layers are optional below ~10,000 steps and beneficial beyond. Learned routing is essential: uniform averaging degrades by -1.2% vs. best specialist, while any trained router achieves oracle-optimal assignment.
- Abstract(参考訳): 独立した訓練を受けたドメインスペシャリストは、個々のスペシャリストよりも優れた1つのモデルに融合することができ、利得は予測可能である: gain = 0.82 x divergence - 2.72 (R^2 = 0.856, n=6, 3-26% divergence)。
これにより、計算をコミットする前に協調的な価値を見積もることができる。
KALAVAIプロトコルでは、コントリビュータは共有チェックポイントの微調整のコピーを独立して作成し、軽量なMoEルーティング(500ステップ)を提出する。
7.72%が410M(+/-0.02%、3種)、+7.49%が1B(+/-0.01%、3種)、+6.53%が6.9Bである。
ルータは <10^{-5} nats 内のドメイン・オーラ・ルーティングと一致する。
言語間融合(Tamil/Yoruba/Welsh/Code)は+21.76%、Yorubaは41.9から7.7に減少する。
20のコントリビュータ・フェデレーションは+16.71%(+/-0.07pp, 3種)に達する。
プロトコルには3つの要件がある。
共有初期化: チェックポイントミスマッチはルーティングを劣化させる。
凍結層はオプションで10,000ステップ以下で、それ以上のメリットがある。
学習されたルーティングは必須である: 訓練されたルータがオラクルと最適の割り当てを達成している間、一様平均化は、最高のスペシャリストに対して1.2%低下する。
関連論文リスト
- D2-LoRA: A Synergistic Approach to Differential and Directional Low-Rank Adaptation [0.24636535146231608]
D2-LoRAは8つの質問応答と読解ベンチマークで76.4%の平均精度を達成した。
この方法は、符号付き低ランク残差更新と追加的および減算的コンポーネント、および列車時列ワイドプロジェクションを組み合わせたものである。
論文 参考訳(メタデータ) (2026-02-16T13:19:42Z) - PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems [1.0978496459260902]
本稿では,タウをランタイム入力として正確にターゲットとするルータ PROTEUS を提案する。
単一の訓練されたモデルは、トレーニングをせずに完全な精度のスペクトルを提供する。
RouterBench(11モデル,405Kクエリ)とSPROUT(14モデル,45Kクエリ)について検討する。
論文 参考訳(メタデータ) (2026-01-27T09:38:16Z) - MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching [60.886768806064936]
Tool-Integrated Reasoningは、外部ツールのインタラクションと推論ステップをインターリーブすることで、大規模な言語モデルで複雑なタスクに対処することを可能にする。
既存の強化学習法は、結果や軌道レベルの報酬に依存し、軌道内のすべてのステップに一様の利点を割り当てる。
両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かい監視を実現するフレームワークであるMatchTIRを提案する。
論文 参考訳(メタデータ) (2026-01-15T18:59:23Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Unifying Mixture of Experts and Multi-Head Latent Attention for Efficient Language Models [1.7272658301768147]
MoE-MLA-RoPEは、Mixture of Experts (MoE)とMulti-head Latent Attention (MLA)とRotary Position Embeddings (RoPE)を組み合わせた、効率的な言語モデリングのための新しいアーキテクチャの組み合わせである。
提案手法は,3つの重要なイノベーションを通じて,モデル容量と計算効率の基本的なトレードオフに対処する。
論文 参考訳(メタデータ) (2025-08-02T08:33:30Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - End-to-End Sensitivity-Based Filter Pruning [49.61707925611295]
本稿では,各層間のフィルタの重要度を学習するための感度に基づくフィルタプルーニングアルゴリズム(SbF-Pruner)を提案する。
提案手法はフィルタ重みからスコアを学習し,各層のフィルタ間の相関を考慮できる。
論文 参考訳(メタデータ) (2022-04-15T10:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。