論文の概要: Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2510.19338v2
- Date: Thu, 23 Oct 2025 06:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.334841
- Title: Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
- Title(参考訳): すべての注意事項: ロングコンテキスト推論のための効率的なハイブリッドアーキテクチャ
- Authors: Ling Team, Bin Han, Caizhi Tang, Chen Liang, Donghao Zhang, Fan Yuan, Feng Zhu, Jie Gao, Jingyu Hu, Longfei Li, Meng Li, Mingyang Zhang, Peijie Jiang, Peng Jiao, Qian Zhao, Qingyuan Yang, Wenbo Shen, Xinxing Yang, Yalin Zhang, Yankun Ren, Yao Zhao, Yibo Cao, Yixuan Sun, Yue Zhang, Yuchen Fang, Zibin Lin, Zixuan Cheng, Jun Zhou,
- Abstract要約: 本稿では、Ring-mini-linear-2.0およびRing-flash-linear-2.0を含むRing-linearモデルシリーズについて述べる。
どちらのモデルも線形アテンションとソフトマックスアテンションを効果的に統合するハイブリッドアーキテクチャを採用している。
32億のパラメータ密度モデルと比較して、このシリーズは推論コストを1/10に削減し、元のRingシリーズと比較すると、コストも50%以上削減される。
- 参考スコア(独自算出の注目度): 73.10669391954801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we present the Ring-linear model series, specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both models adopt a hybrid architecture that effectively integrates linear attention and softmax attention, significantly reducing I/O and computational overhead in long-context inference scenarios. Compared to a 32 billion parameter dense model, this series reduces inference cost to 1/10, and compared to the original Ring series, the cost is also reduced by over 50%. Furthermore, through systematic exploration of the ratio between different attention mechanisms in the hybrid architecture, we have identified the currently optimal model structure. Additionally, by leveraging our self-developed high-performance FP8 operator library-linghe, overall training efficiency has been improved by 50%. Benefiting from the high alignment between the training and inference engine operators, the models can undergo long-term, stable, and highly efficient optimization during the reinforcement learning phase, consistently maintaining SOTA performance across multiple challenging complex reasoning benchmarks.
- Abstract(参考訳): 本稿では,Ring-mini-linear-2.0およびRing-flash-linear-2.0を含むRing-linearモデルについて述べる。
Ring-mini-linear-2.0は16Bパラメータと957Mアクティベーションを含み、Ring-flash-linear-2.0は104Bパラメータと6.1Bアクティベーションを含む。
どちらのモデルも線形アテンションとソフトマックスアテンションを効果的に統合するハイブリッドアーキテクチャを採用しており、長いコンテキスト推論シナリオにおけるI/Oと計算オーバーヘッドを大幅に削減する。
32億のパラメータ密度モデルと比較して、このシリーズは推論コストを1/10に削減し、元のRingシリーズと比較すると、コストも50%以上削減される。
さらに,ハイブリッドアーキテクチャにおける異なる注意機構の比率を体系的に調べることで,現在最適であるモデル構造を特定した。
さらに, 自家製高性能FP8演算子ライブラリリングを活用することにより, 総合訓練効率を50%向上した。
トレーニングエンジン演算子と推論エンジン演算子の高整合性により、モデルは強化学習フェーズにおいて長期、安定、高度に効率的な最適化を行え、複数の困難な複雑な推論ベンチマークでSOTA性能を一貫して維持することができる。
関連論文リスト
- Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - Causal-Guided Dimension Reduction for Efficient Pareto Optimization [2.9013001432962255]
CaDROは、観測と干渉のハイブリッドなプロセスを通して因果写像を構築し、目的に対する因果効果によってパラメータをランク付けする。
低インパクトパラメータは高品質なソリューションの値に固定されるが、クリティカルなドライバは引き続き検索でアクティブである。
増幅器、レギュレータ、RF回路にまたがって、CaDROはNSGA-IIよりも10$times$速く収束する。
論文 参考訳(メタデータ) (2025-10-11T00:41:04Z) - Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - A Systematic Analysis of Hybrid Linear Attention [11.722015123070957]
リニアモデルはしばしばリコール性能の制限に悩まされる。
本研究は, 効率的なハイブリッドモデルとして, 選択的ゲーティング, 階層的再帰, 制御的忘れを重要視する。
私たちのモデルはhttps://huggingface.co/collections/m-hugging-a-p/hybrid-linear-attention-research-686c488a63d609d2f2 0e2b1eでオープンソース化されています。
論文 参考訳(メタデータ) (2025-07-08T23:54:11Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Data-Driven Antenna Miniaturization: A Knowledge-Based System Integrating Quantum PSO and Predictive Machine Learning Models [0.0]
本研究では,HFSSシミュレーションと量子ビーム動的粒子群最適化を統合し,アンテナ設計を高速化する。
QDPSOアルゴリズムは11.53秒でループ次元を自動最適化し、共振周波数は1.2208 GHzである。
システムは、製造可能なパラメータを自動生成するパフォーマンスターゲットの正確な仕様を可能にする。
論文 参考訳(メタデータ) (2025-05-28T15:04:36Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。