論文の概要: Ruyi2 Technical Report
- arxiv url: http://arxiv.org/abs/2602.22543v1
- Date: Thu, 26 Feb 2026 02:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.486767
- Title: Ruyi2 Technical Report
- Title(参考訳): Ruyi2の技術報告
- Authors: Huan Song, Shuyu Tian, Junyi Hao, Minxiu Xu, Hongjun An, Yiliang Song, Jiawei Shao, Xuelong Li,
- Abstract要約: 大規模言語モデル(LLM)は、デプロイメントコストとレイテンシに関する重大な課題に直面します。
本稿では,効率的な変数深度計算のために設計された適応モデル系列の進化として,Ruyi2を紹介する。
このギャップを埋めるために、Ruyi2 は Megatron-LM に基づいた安定な「家族モデル」を導入した。
- 参考スコア(独自算出の注目度): 42.42825023368659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face significant challenges regarding deployment costs and latency, necessitating adaptive computing strategies. Building upon the AI Flow framework, we introduce Ruyi2 as an evolution of our adaptive model series designed for efficient variable-depth computation. While early-exit architectures offer a viable efficiency-performance balance, the Ruyi model and existing methods often struggle with optimization complexity and compatibility with large-scale distributed training. To bridge this gap, Ruyi2 introduces a stable "Familial Model" based on Megatron-LM. By using 3D parallel training, it achieves a 2-3 times speedup over Ruyi, while performing comparably to same-sized Qwen3 models. These results confirm that family-based parameter sharing is a highly effective strategy, establishing a new "Train Once, Deploy Many" paradigm and providing a key reference for balancing architectural efficiency with high-performance capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、デプロイメントコストとレイテンシに関する重大な課題に直面し、適応型コンピューティング戦略を必要とします。
AI Flowフレームワーク上に構築されたRuyi2は,効率的な可変深度計算用に設計された適応モデルシリーズの進化である。
アーリーエグジットアーキテクチャは効率と性能のバランスが良いが、Ruyiモデルと既存の手法は、しばしば最適化の複雑さと大規模分散トレーニングとの互換性に悩まされる。
このギャップを埋めるために、Ruyi2 は Megatron-LM に基づいた安定な「家族モデル」を導入した。
3Dパラレルトレーニングを使用することで、同じサイズのQwen3モデルと互換性を持ちながら、Ruyi上で2~3倍のスピードアップを実現している。
これらの結果は、ファミリーベースのパラメータ共有が、新しい"Train Once, Deploy Many"パラダイムを確立し、アーキテクチャ効率と高性能機能のバランスをとるための重要な基準を提供する、非常に効果的な戦略であることを確認する。
関連論文リスト
- DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Retrofitting Earth System Models with Cadence-Limited Neural Operator Updates [3.9578288463123]
本稿では,瞬時モデル状態をバイアス補正傾向にマッピングする演算子学習フレームワークを提案する。
ERA5の再解析に向け、2年間のE3SMシミュレーションを訓練し、オペレーターは高度と季節にまたがって一般化する。
本フレームワークは, 長期的安定性, ポータビリティ, ケイデンス限定更新を重視し, 表現力のあるML演算子の有用性を実証する。
論文 参考訳(メタデータ) (2025-12-02T23:44:49Z) - A Unified Model for Multi-Task Drone Routing in Post-Disaster Road Assessment [14.07560120879767]
災害後の道路評価(PDRA)は緊急対応に不可欠であり、インフラ条件の迅速な評価を可能にする。
ドローンはPDRAに柔軟で効果的なツールを提供するが、大規模なネットワークでそれらをルーティングすることは依然として難しい。
本研究は,PDRAの8つの変種に同時に対応可能な,ドローンルーティングのための統一モデル(UM)を提案する。
論文 参考訳(メタデータ) (2025-10-24T14:48:57Z) - AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models [59.7059443712562]
AdaPtisは、適応パイプライン並列性をサポートする大規模言語モデル(LLM)のトレーニングシステムである。
大規模な実験により、AdaPtisはMegatron-LM I-1F1Bよりも平均1.42倍(最大2.14倍)のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-28T08:05:13Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Efficient Unstructured Pruning of Mamba State-Space Models for Resource-Constrained Environments [6.908972852063454]
状態空間モデル(SSM)は、シーケンスモデリングのためのトランスフォーマーの強力な代替品として登場した。
そこで本研究では,Mambaモデルに適した非構造化プルーニングフレームワークを提案し,その性能を95%以上維持しながら,最大70%のパラメータ削減を実現した。
論文 参考訳(メタデータ) (2025-05-13T07:23:08Z) - Intelligent Orchestration of Distributed Large Foundation Model Inference at the Edge [46.1232919707345]
Large Foundation Models (LFMs)は、次世代のEdge AIアプリケーションの新機能をアンロックすることを約束する。
現在の分割推論戦略では、ノード間でLPM層を分割するが、変動するワークロードに適応するようには設計されていない。
本稿では, LFM層を実行時可変変数に配置し, 分割する, 適応型分割推論オーケストレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T15:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。