論文の概要: Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models
- arxiv url: http://arxiv.org/abs/2501.13629v1
- Date: Thu, 23 Jan 2025 12:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:28.653010
- Title: Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models
- Title(参考訳): Sigma: 効率的な言語モデルのためのクエリ、キー、値の差分再スケーリング
- Authors: Zhenghao Lin, Zihao Tang, Xiao Liu, Yeyun Gong, Yi Cheng, Qi Chen, Hang Li, Ying Xin, Ziyue Yang, Kailai Yang, Yu Yan, Xiao Liang, Shuai Lu, Yiming Huang, Zheheng Luo, Lei Qu, Xuan Feng, Yaoxiang Wang, Yuqing Xia, Feiyang Chen, Yuting Jiang, Yasen Hu, Hao Ni, Binyang Li, Guoshuai Zhao, Jui-Hao Chiang, Zhongxin Guo, Chen Lin, Kun Kuang, Wenjie Li, Yelong Shen, Jian Jiao, Peng Cheng, Mao Yang,
- Abstract要約: 本稿では,DiffQKV の注目を含む新しいアーキテクチャを応用した,システムドメインに特化した効率的な大規模言語モデルを提案する。
我々は、モデルがK成分とV成分の圧縮に対して様々な感度を持つことを示す実験を行い、微分圧縮KVの開発に繋がる。
我々は最初の総合ベンチマークであるAIMiciusを紹介し、Sigmaはすべてのタスクで顕著なパフォーマンスを示し、52.5%の絶対的な改善でGPT-4を著しく上回った。
- 参考スコア(独自算出の注目度): 75.58140912100318
- License:
- Abstract: We introduce Sigma, an efficient large language model specialized for the system domain, empowered by a novel architecture including DiffQKV attention, and pre-trained on our meticulously collected system domain data. DiffQKV attention significantly enhances the inference efficiency of Sigma by optimizing the Query (Q), Key (K), and Value (V) components in the attention mechanism differentially, based on their varying impacts on the model performance and efficiency indicators. Specifically, we (1) conduct extensive experiments that demonstrate the model's varying sensitivity to the compression of K and V components, leading to the development of differentially compressed KV, and (2) propose augmented Q to expand the Q head dimension, which enhances the model's representation capacity with minimal impacts on the inference speed. Rigorous theoretical and empirical analyses reveal that DiffQKV attention significantly enhances efficiency, achieving up to a 33.36% improvement in inference speed over the conventional grouped-query attention (GQA) in long-context scenarios. We pre-train Sigma on 6T tokens from various sources, including 19.5B system domain data that we carefully collect and 1T tokens of synthesized and rewritten data. In general domains, Sigma achieves comparable performance to other state-of-arts models. In the system domain, we introduce the first comprehensive benchmark AIMicius, where Sigma demonstrates remarkable performance across all tasks, significantly outperforming GPT-4 with an absolute improvement up to 52.5%.
- Abstract(参考訳): 我々はシステムドメインに特化した効率的な大規模言語モデルであるSigmaを紹介し、DiffQKVの注意を含む新しいアーキテクチャによって強化され、厳密に収集されたシステムドメインデータに基づいて事前訓練される。
DiffQKVアテンションは、モデル性能と効率指標に対する様々な影響に基づいて、アテンション機構におけるクエリ(Q)、キー(K)、バリュー(V)成分を微分的に最適化することにより、Sigmaの推論効率を著しく向上させる。
具体的には,(1)K成分とV成分の圧縮に対するモデルの感度の変化を実証する広範囲な実験を行い,両者の差分圧縮KVの開発につながり,(2)Q次元を拡大する拡張Qを提案し,モデルの表現能力を推論速度に最小限の影響で向上させる。
厳密な理論的および経験的な分析により、DiffQKVの注意は効率を著しく向上させ、長期のシナリオにおいて従来のグループクエリー注意(GQA)よりも33.36%の推論速度を向上させることが明らかになった。
我々は、慎重に収集した19.5Bシステムドメインデータや、合成および書き換えされたデータの1Tトークンを含む、さまざまなソースから6TトークンにSigmaを事前訓練する。
一般的なドメインでは、Sigmaは他の最先端モデルと同等のパフォーマンスを達成する。
システム領域では、Sigmaがすべてのタスクで顕著なパフォーマンスを示し、52.5%の絶対的な改善でGPT-4を著しく上回ります。
関連論文リスト
- Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - Don't Just Pay Attention, PLANT It: Transfer L2R Models to Fine-tune Attention in Extreme Multi-Label Text Classification [1.6385815610837162]
我々は、微調整XMTCデコーダのための新しいトランスファー学習戦略であるPLANT -- Pretrained and Leveraged AtteNTionを紹介した。
PLANTは、模倣フル、模倣フィフティ、模倣フォー、Eurlex、wikitenデータセットに関するすべてのメトリクスで、既存の最先端メソッドを超越している。
特に数ショットのシナリオでは優れており、前モデルでは数ショットのシナリオで特別に設計されたモデルよりも、模倣率でF1スコアで50ポイント以上、模倣率で36ポイント以上上回っている。
論文 参考訳(メタデータ) (2024-10-30T14:41:23Z) - Gamified crowd-sourcing of high-quality data for visual fine-tuning [0.9487395978583629]
本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。
GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。
論文 参考訳(メタデータ) (2024-10-05T05:10:29Z) - Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Towards quantitative precision for ECG analysis: Leveraging state space
models, self-supervision and patient metadata [2.0777058026628583]
自動心電図解析システムの定量的精度向上を目的とした3つの要素について検討する。
まず、構造化状態空間モデル(SSM)を用いて時系列データの長期依存関係をキャプチャする。
第2に、コントラスト予測符号化を用いた自己教師型学習が、SSMの性能をさらに向上することを示した。
最後に、ECG信号と共に基本的な統計メタデータを入力として組み込む。
論文 参考訳(メタデータ) (2023-08-29T13:25:26Z) - How Knowledge Graph and Attention Help? A Quantitative Analysis into
Bag-level Relation Extraction [66.09605613944201]
バッグレベルの関係抽出(RE)における注意と知識グラフの効果を定量的に評価する。
その結果,(1)注目精度の向上は,エンティティ参照特徴を抽出するモデルの性能を損なう可能性があること,(2)注目性能は様々なノイズ分布パターンの影響が大きいこと,(3)KG強化された注目はRE性能を向上するが,その効果は注目度を向上させるだけでなく,先行するエンティティを組み込むことによっても改善することがわかった。
論文 参考訳(メタデータ) (2021-07-26T09:38:28Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。