論文の概要: MoBA: Mixture of Block Attention for Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2502.13189v1
- Date: Tue, 18 Feb 2025 14:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:02:13.532968
- Title: MoBA: Mixture of Block Attention for Long-Context LLMs
- Title(参考訳): MoBA:長期LLMにおけるブロック注意の混合
- Authors: Enzhe Lu, Zhejun Jiang, Jingyuan Liu, Yulun Du, Tao Jiang, Chao Hong, Shaowei Liu, Weiran He, Enming Yuan, Yuzhi Wang, Zhiqi Huang, Huan Yuan, Suting Xu, Xinran Xu, Guokun Lai, Yanru Chen, Huabin Zheng, Junjie Yan, Jianlin Su, Yuxin Wu, Neo Y. Zhang, Zhilin Yang, Xinyu Zhou, Mingxing Zhang, Jiezhong Qiu,
- Abstract要約: 汎用人工知能(AGI)に向けた大規模言語モデル(LLM)の進展に有効な文脈長のスケーリングが不可欠である
既存のアプローチでは、タスク固有のシンクやウィンドウアテンションなどの強いバイアスのある構造を課すか、あるいは、アテンションメカニズムを線形近似に根本的に変更する。
そこで本研究では,より少ない構造原理に固執する解を提案し,モデルが自律的に出席する場所を決定する。
- 参考スコア(独自算出の注目度): 46.10222520755179
- License:
- Abstract: Scaling the effective context length is essential for advancing large language models (LLMs) toward artificial general intelligence (AGI). However, the quadratic increase in computational complexity inherent in traditional attention mechanisms presents a prohibitive overhead. Existing approaches either impose strongly biased structures, such as sink or window attention which are task-specific, or radically modify the attention mechanism into linear approximations, whose performance in complex reasoning tasks remains inadequately explored. In this work, we propose a solution that adheres to the ``less structure'' principle, allowing the model to determine where to attend autonomously, rather than introducing predefined biases. We introduce Mixture of Block Attention (MoBA), an innovative approach that applies the principles of Mixture of Experts (MoE) to the attention mechanism. This novel architecture demonstrates superior performance on long-context tasks while offering a key advantage: the ability to seamlessly transition between full and sparse attention, enhancing efficiency without the risk of compromising performance. MoBA has already been deployed to support Kimi's long-context requests and demonstrates significant advancements in efficient attention computation for LLMs. Our code is available at https://github.com/MoonshotAI/MoBA.
- Abstract(参考訳): 実効的な文脈長のスケーリングは、大規模言語モデル(LLM)を人工知能(AGI)に進化させる上で不可欠である。
しかし、従来の注意機構に固有の計算複雑性の二次的増加は、禁止的なオーバーヘッドをもたらす。
既存のアプローチでは、タスク固有のシンクやウィンドウアテンションなどの強いバイアスのある構造を課すか、複雑な推論タスクのパフォーマンスが不十分な線形近似に注意機構を根本的に変更する。
本研究では, 「無構造」 の原理に固執する解を提案し, 事前定義されたバイアスを導入するのではなく, モデルが自律的に出席する場所を決定することを可能にする。
我々は,Mixture of Block Attention(MoBA)という,Mixture of Experts(MoE)の原則を注目メカニズムに適用する革新的なアプローチを紹介した。
この斬新なアーキテクチャは、長期間のタスクにおいて優れたパフォーマンスを示しながら、重要な利点である、フルとスパースの間でシームレスに遷移する能力、パフォーマンスを損なうことなく効率を向上する能力を提供する。
MoBAはすでにKimiの長文リクエストをサポートするためにデプロイされており、LLMの効率的な注意計算の大幅な進歩を示している。
私たちのコードはhttps://github.com/MoonshotAI/MoBA.comで利用可能です。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Efficient and Economic Large Language Model Inference with Attention Offloading [11.698376311689456]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて優れたパフォーマンスを示すが、現実のサービスにおいて大きな課題をもたらす。
このミスマッチは LLM の自己回帰的な性質から生じ、生成フェーズはリソース要求の異なる演算子から構成される。
LLMの効率性と費用対効果を高めるために,注意オフロードの概念を導入する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z) - How Sparse Attention Approximates Exact Attention? Your Attention is Naturally $n^C$-Sparse [9.552839922307587]
スパース注意(英: Sparse Attention)とは、標準的な注意計算と準四分法的な複雑性を近似する手法である。
KVキャッシュのプルーニング、スパースベースの高速注意、スパーストランスフォーマーといったテクニックのバリエーションは、効率的なLLM(Large Language Models)デプロイメントに広く利用されている。
論文 参考訳(メタデータ) (2024-04-03T12:37:34Z) - Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。
LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。
本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T03:23:58Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。