Fugu-MT 論文翻訳(概要): Cost-Optimal Grouped-Query Attention for Long-Context LLMs

論文の概要: Cost-Optimal Grouped-Query Attention for Long-Context LLMs

arxiv url: http://arxiv.org/abs/2503.09579v1
Date: Wed, 12 Mar 2025 17:50:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.878978
Title: Cost-Optimal Grouped-Query Attention for Long-Context LLMs
Title（参考訳）: 長期LLMにおけるコスト最適グループクエリアテンション
Authors: Yingfa Chen, Yutong Wu, Xu Han, Zhiyuan Liu, Maosong Sun,
Abstract要約: 効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
参考スコア（独自算出の注目度）: 64.90662568387683
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Building effective and efficient Transformer-based large language models (LLMs) has recently become a research focus, requiring maximizing model language capabilities and minimizing training and deployment costs. Existing efforts have primarily described complex relationships among model performance, parameter size, and data size, as well as searched for the optimal compute allocation to train LLMs. However, they overlook the impacts of context length and attention head configuration (the number of query and key-value heads in grouped-query attention) on training and inference. In this paper, we systematically compare models with different parameter sizes, context lengths, and attention head configurations in terms of model performance, computational cost, and memory cost. Then, we extend the existing scaling methods, which are based solely on parameter size and training compute, to guide the construction of cost-optimal LLMs during both training and inference. Our quantitative scaling studies show that, when processing sufficiently long sequences, a larger model with fewer attention heads can achieve a lower loss while incurring lower computational and memory costs. Our findings provide valuable insights for developing practical LLMs, especially in long-context processing scenarios. We will publicly release our code and data.
Abstract（参考訳）: 効率よく効率的なTransformerベースの大規模言語モデル(LLM)の構築は、最近研究の焦点となり、モデル言語能力の最大化と、トレーニングとデプロイメントのコストの最小化が求められている。既存の研究は、モデル性能、パラメータサイズ、データサイズの間の複雑な関係を主に記述し、LLMの訓練に最適な計算割り当てを探索してきた。しかし、彼らは、トレーニングと推論におけるコンテキスト長とアテンションヘッド構成(グループクエリアテンションにおけるクエリ数とキーバリューヘッド数)の影響を見落としている。本稿では,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルに対して,モデル性能,計算コスト,メモリコストを体系的に比較する。次に,パラメータサイズとトレーニング計算のみに基づく既存のスケーリング手法を拡張し,トレーニングと推論の両方において,コスト最適LCMの構築を指導する。我々の定量的スケーリング研究は、十分に長いシーケンスを処理する場合、より少ないアテンションヘッドを持つ大きなモデルでは、より少ない計算とメモリコストで損失を低減できることを示している。本研究は,LLMの実践的開発,特に長文処理シナリオにおいて重要な知見を提供する。コードとデータを公開します。

関連論文リスト

Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文参考訳（メタデータ） (2025-04-30T14:01:45Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文参考訳（メタデータ） (2024-12-20T06:58:32Z)
Spectral Subspace Clustering for Attributed Graphs [3.974852803981998]
部分空間クラスタリングは、n 個のデータポイントの集合を k (kn) グループに分割する部分空間を同定しようとする。本稿では,SCAG計算に有効な2つのアルゴリズム,S2CAGとM-S2CAGを提案する。
論文参考訳（メタデータ） (2024-11-17T13:22:15Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
CORAG: A Cost-Constrained Retrieval Optimization System for Retrieval-Augmented Generation [22.918861762038116]
大規模言語モデル(LLM)は目覚ましい生成能力を示してきたが、しばしば最新の情報にアクセスするのに苦労している。 Retrieval-Augmented Generation (RAG)は、外部データベースからの知識を取り入れることでこの問題に対処する。
論文参考訳（メタデータ） (2024-11-01T17:11:16Z)
Computational Bottlenecks of Training Small-scale Large Language Models [19.663560481459164]
小型の大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目されている。本研究では,SLMの学習における計算的ボトルネックについて検討する。私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
論文参考訳（メタデータ） (2024-10-25T10:30:21Z)
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。特定の論理的および数学的推論タスクに焦点を当てている。このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文参考訳（メタデータ） (2024-10-24T16:27:35Z)
Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文参考訳（メタデータ） (2024-10-07T23:48:52Z)
Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
拡張推論計算は、長文大言語モデル(LLM)の可能性を解き放った本研究では,文脈内学習や反復的プロンプトなど,知識の量を増やすこと以上の複数の戦略の組み合わせについて検討する。長文LLMのスケーリング推論計算は、標準RAGと比較して、ベンチマークデータセットで58.9%向上することを示す。
論文参考訳（メタデータ） (2024-10-06T03:42:15Z)
Efficient Training of Self-Supervised Speech Foundation Models on a Compute Budget [53.882492597728195]
本稿では,限定的な計算予算の下で,自己教師付き学習(SSL)を用いて音声基礎モデルを効率的に訓練する方法を検討する。モデルアーキテクチャ、モデルサイズ、データサイズなど、予算に影響を与えるSSLの重要な要因について検討する。
論文参考訳（メタデータ） (2024-09-09T10:36:42Z)
Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めたモデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文参考訳（メタデータ） (2024-09-07T13:57:41Z)
Understanding the Performance and Estimating the Cost of LLM Fine-Tuning [9.751868268608675]
コスト効率の良い特定のタスクのための微調整大型言語モデル(LLM)。本稿では,Sparse Mixture of Experts (MoE)をベースとしたLLMファインチューニングを特徴付ける。また,クラウド上でのLCM微調整のコストを推定するための解析モデルを開発し,検証する。
論文参考訳（メタデータ） (2024-08-08T16:26:07Z)
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。 RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文参考訳（メタデータ） (2024-07-19T17:35:47Z)
Cost-efficient Knowledge-based Question Answering with Large Language Models [28.816821631082856]
知識に基づく質問応答(KBQA)は、ドメイン知識を必要とする多くのシナリオで広く使われている。大規模言語モデル(LLM)はKBQAに機会をもたらすが、そのコストは著しく高く、事前トレーニング中にドメイン固有の知識が欠如している。我々は,KBQA と LLM のコスト効率を向上する新しい戦略である Coke を提案する。
論文参考訳（メタデータ） (2024-05-27T16:37:34Z)
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文参考訳（メタデータ） (2024-04-09T15:36:50Z)
E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文参考訳（メタデータ） (2024-01-13T02:11:20Z)
On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文参考訳（メタデータ） (2023-06-03T05:01:51Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。