Fugu-MT 論文翻訳(概要): Cost-Optimal Grouped-Query Attention for Long-Context Modeling

論文の概要: Cost-Optimal Grouped-Query Attention for Long-Context Modeling

arxiv url: http://arxiv.org/abs/2503.09579v2
Date: Tue, 20 May 2025 09:31:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:51.859355
Title: Cost-Optimal Grouped-Query Attention for Long-Context Modeling
Title（参考訳）: 長期モデリングのためのコスト最適グループクエリアテンション
Authors: Yingfa Chen, Yutong Wu, Chenyang Song, Zhen Leng Thai, Xingyu Shen, Xu Han, Zhiyuan Liu, Maosong Sun,
Abstract要約: Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。コスト最適GQA構成の導出法を提案する。
参考スコア（独自算出の注目度）: 58.10054123910204
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Grouped-Query Attention (GQA) is a widely adopted strategy for reducing the computational cost of attention layers in large language models (LLMs). However, current GQA configurations are often suboptimal because they overlook how context length influences inference cost. Since inference cost grows with context length, the most cost-efficient GQA configuration should also vary accordingly. In this work, we analyze the relationship among context length, model size, GQA configuration, and model loss, and introduce two innovations: (1) we decouple the total head size from the hidden size, enabling more flexible control over attention FLOPs; and (2) we jointly optimize the model size and the GQA configuration to arrive at a better allocation of inference resources between attention layers and other components. Our analysis reveals that commonly used GQA configurations are highly suboptimal for long-context scenarios. More importantly, we propose a recipe for deriving cost-optimal GQA configurations. Our results show that for long-context scenarios, one should use fewer attention heads while scaling up model size. Configurations selected by our recipe can reduce both memory usage and FLOPs by more than 50% compared to Llama-3's GQA, with *no degradation in model capabilities*. Our findings offer valuable insights for designing efficient long-context LLMs. The code is available at https://www.github.com/THUNLP/cost-optimal-gqa .
Abstract（参考訳）: Grouped-Query Attention (GQA) は、大規模言語モデル(LLM)における注目層の計算コストを削減するための広く採用されている戦略である。しかし、現在のGQA構成は、コンテキスト長が推論コストにどのように影響するかを見逃すため、しばしばサブ最適である。推論コストは文脈長とともに増加するので、最もコスト効率のよいGQA構成もそれに応じて変化する。本研究は, 文脈長, モデルサイズ, GQA構成, モデル損失の関係を解析し, 1) 全頭部サイズを隠蔽サイズから切り離し, より柔軟な注意制御を可能にする,2) モデルサイズとGQA構成を協調的に最適化して, 注目層と他のコンポーネント間の推論リソースの割り当てを改善する,という2つのイノベーションを紹介する。分析の結果,GQA構成が長文シナリオに対して極めて最適であることが判明した。さらに,コスト最適GQA構成の導出法を提案する。以上の結果から,長期コンテキストシナリオでは,モデルサイズをスケールアップする際の注意力の低下が示唆された。我々のレシピによって選択された構成は、Llama-3のGQAに比べて、メモリ使用量とFLOPの両方を50%以上削減できる。本研究は,LLMを効率的に設計するための貴重な知見を提供する。コードはhttps://www.github.com/THUNLP/ Cost-optimal-gqa で公開されている。

関連論文リスト

Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむこれは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文参考訳（メタデータ） (2025-09-25T06:48:52Z)
Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文参考訳（メタデータ） (2025-04-30T14:01:45Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文参考訳（メタデータ） (2024-12-20T06:58:32Z)
Spectral Subspace Clustering for Attributed Graphs [3.974852803981998]
部分空間クラスタリングは、n 個のデータポイントの集合を k (kn) グループに分割する部分空間を同定しようとする。本稿では,SCAG計算に有効な2つのアルゴリズム,S2CAGとM-S2CAGを提案する。
論文参考訳（メタデータ） (2024-11-17T13:22:15Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
CORAG: A Cost-Constrained Retrieval Optimization System for Retrieval-Augmented Generation [22.918861762038116]
大規模言語モデル(LLM)は目覚ましい生成能力を示してきたが、しばしば最新の情報にアクセスするのに苦労している。 Retrieval-Augmented Generation (RAG)は、外部データベースからの知識を取り入れることでこの問題に対処する。
論文参考訳（メタデータ） (2024-11-01T17:11:16Z)
Computational Bottlenecks of Training Small-scale Large Language Models [19.663560481459164]
小型の大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目されている。本研究では,SLMの学習における計算的ボトルネックについて検討する。私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
論文参考訳（メタデータ） (2024-10-25T10:30:21Z)
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。特定の論理的および数学的推論タスクに焦点を当てている。このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文参考訳（メタデータ） (2024-10-24T16:27:35Z)
Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文参考訳（メタデータ） (2024-10-07T23:48:52Z)
Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
拡張推論計算は、長文大言語モデル(LLM)の可能性を解き放った本研究では,文脈内学習や反復的プロンプトなど,知識の量を増やすこと以上の複数の戦略の組み合わせについて検討する。長文LLMのスケーリング推論計算は、標準RAGと比較して、ベンチマークデータセットで58.9%向上することを示す。
論文参考訳（メタデータ） (2024-10-06T03:42:15Z)
Efficient Training of Self-Supervised Speech Foundation Models on a Compute Budget [53.882492597728195]
本稿では,限定的な計算予算の下で,自己教師付き学習(SSL)を用いて音声基礎モデルを効率的に訓練する方法を検討する。モデルアーキテクチャ、モデルサイズ、データサイズなど、予算に影響を与えるSSLの重要な要因について検討する。
論文参考訳（メタデータ） (2024-09-09T10:36:42Z)
Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めたモデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文参考訳（メタデータ） (2024-09-07T13:57:41Z)
Understanding the Performance and Estimating the Cost of LLM Fine-Tuning [9.751868268608675]
コスト効率の良い特定のタスクのための微調整大型言語モデル(LLM)。本稿では,Sparse Mixture of Experts (MoE)をベースとしたLLMファインチューニングを特徴付ける。また,クラウド上でのLCM微調整のコストを推定するための解析モデルを開発し,検証する。
論文参考訳（メタデータ） (2024-08-08T16:26:07Z)
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。 RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文参考訳（メタデータ） (2024-07-19T17:35:47Z)
Cost-efficient Knowledge-based Question Answering with Large Language Models [28.816821631082856]
知識に基づく質問応答(KBQA)は、ドメイン知識を必要とする多くのシナリオで広く使われている。大規模言語モデル(LLM)はKBQAに機会をもたらすが、そのコストは著しく高く、事前トレーニング中にドメイン固有の知識が欠如している。我々は,KBQA と LLM のコスト効率を向上する新しい戦略である Coke を提案する。
論文参考訳（メタデータ） (2024-05-27T16:37:34Z)
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文参考訳（メタデータ） (2024-04-09T15:36:50Z)
E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文参考訳（メタデータ） (2024-01-13T02:11:20Z)
On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文参考訳（メタデータ） (2023-06-03T05:01:51Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。