Fugu-MT 論文翻訳(概要): Llamba: Scaling Distilled Recurrent Models for Efficient Language Processing

論文の概要: Llamba: Scaling Distilled Recurrent Models for Efficient Language Processing

arxiv url: http://arxiv.org/abs/2502.14458v2
Date: Sun, 23 Feb 2025 13:02:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 13:51:10.507275
Title: Llamba: Scaling Distilled Recurrent Models for Efficient Language Processing
Title（参考訳）: Llamba: 効率的な言語処理のための拡張型リカレントモデル
Authors: Aviv Bick, Tobias Katsch, Nimit Sohoni, Arjun Desai, Albert Gu,
Abstract要約: 我々はLlama-3.xから蒸留した効率の良いリカレント言語モデルのファミリーであるLlambaをMambaアーキテクチャに導入する。シリーズにはLlamba-1B、Llamba-3B、Llamba-8Bが含まれる。
参考スコア（独自算出の注目度）: 12.803254607711851
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Llamba, a family of efficient recurrent language models distilled from Llama-3.x into the Mamba architecture. The series includes Llamba-1B, Llamba-3B, and Llamba-8B, which achieve higher inference throughput and handle significantly larger batch sizes than Transformer-based models while maintaining comparable benchmark performance. Furthermore, Llamba demonstrates the effectiveness of cross-architecture distillation using MOHAWK (Bick et al., 2024), achieving these results with less than 0.1% of the training data typically used for models of similar size. To take full advantage of their efficiency, we provide an optimized implementation of Llamba for resource-constrained devices such as smartphones and edge platforms, offering a practical and memory-efficient alternative to Transformers. Overall, Llamba improves the tradeoff between speed, memory efficiency, and performance, making high-quality language models more accessible.
Abstract（参考訳）: 我々はLlama-3.xから蒸留した効率の良いリカレント言語モデルのファミリーであるLlambaをMambaアーキテクチャに導入する。シリーズにはLlamba-1B、Llamba-3B、Llamba-8Bが含まれる。さらに、LlambaはMOHAWK(Bick et al , 2024)を用いたクロスアーキテクチャ蒸留の有効性を示した。その効率を最大限に活用するために、スマートフォンやエッジプラットフォームなどのリソース制約のあるデバイスに対して、Llambaの最適化実装を提供し、Transformerに代わる実用的でメモリ効率のよい代替手段を提供する。全体として、Llambaはスピード、メモリ効率、パフォーマンスのトレードオフを改善し、高品質な言語モデルへのアクセス性を高めている。

関連論文リスト

OverFill: Two-Stage Models for Efficient Language Model Decoding [68.68408155020568]
大規模言語モデル(LLM)は多様なタスクにまたがって優れていますが、高い推論コストのため、デプロイメント上の大きな課題に直面しています。プリフィルとデコードステージを分離し,精度と効率のトレードオフを最適化するOverFillを提案する。我々の3B-to-1B OverFill構成は1Bプルーニングモデルを83.2%上回り、8B-to-3B構成は3Bプルーニングモデルを79.2%上回った。
論文参考訳（メタデータ） (2025-08-11T20:07:34Z)
Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (2025-03-07T04:43:39Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文参考訳（メタデータ） (2024-12-13T05:33:32Z)
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。 Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B) はLlama-3.1-70B-Instructから派生した一般公開モデルである。
論文参考訳（メタデータ） (2024-11-28T13:45:42Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。 Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文参考訳（メタデータ） (2024-11-18T18:59:15Z)
FluidML: Fast and Memory Efficient Inference Optimization [3.7676096626244986]
我々は,汎用ランタイムメモリ管理および最適化フレームワークであるFluidMLを提案する。一般的な言語モデルでは、FluidMLはエンドツーエンドの推論遅延を最大25.38%削減できることを示す。また、FluidMLは最先端のアプローチと比較してピークメモリ使用量を最大41.47%削減できることを示す。
論文参考訳（メタデータ） (2024-11-14T07:16:23Z)
Memory-Efficient Large Language Models for Program Repair with Semantic-Guided Patch Generation [6.801752060058508]
FLAMESは、修復効率とメモリ効率を向上させるためにセマンティック誘導パッチ生成を使用する。 FLAMESはLDMベースのAPRに比べてメモリ消費を最大83%削減する。 FLAMESはDefects4Jの133のバグを正しく修正し、最高のベースラインよりも10のバグを修正します。
論文参考訳（メタデータ） (2024-10-22T02:59:47Z)
GEB-1.3B: Open Lightweight Large Language Model [12.083014082506281]
GEB-1.3Bは、中国語と英語の両方で5500億のトークンで訓練された軽量な大規模言語モデル(LLM)である。我々は, ROPE, Group-Query-Attention, FlashAttention-2などの新しいトレーニング技術を用いて, モデル性能を維持しながらトレーニングを加速する。 GEB-1.3BはMMLU、C-Eval、CMMLUなどの一般的なベンチマークで優れた性能を示し、MindLLM-1.3BやTinyLLaMA-1.1Bのような比較モデルよりも優れている。オープンソースモデルとしてのGAB-1.3Bのリリースは、開発に重大な貢献をした
論文参考訳（メタデータ） (2024-06-14T10:15:49Z)
Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文参考訳（メタデータ） (2024-06-04T17:50:34Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文参考訳（メタデータ） (2023-07-27T16:45:33Z)
Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2～20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文参考訳（メタデータ） (2023-05-31T15:02:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。