論文の概要: AE-LLM: Adaptive Efficiency Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.20492v1
- Date: Fri, 20 Mar 2026 20:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.936696
- Title: AE-LLM: Adaptive Efficiency Optimization for Large Language Models
- Title(参考訳): AE-LLM:大規模言語モデルの適応的効率最適化
- Authors: Kaito Tanaka, Masato Ito, Yuji Nishimura, Keisuke Matsuda, Aya Nakayama,
- Abstract要約: 大規模言語モデル(LLM)は様々なアプリケーションで顕著な成功を収めているが、計算コスト、メモリ要件、エネルギー消費のため、その展開は依然として困難である。
近年の実証研究は、単一効率技術が普遍的に最適ではないことを示した。代わりに、効率的な注意機構、Mix-of-Experts(MoE)、パラメータ効率の良い微調整、量子化といった手法の有効性は、タスク特性、資源制約、モデルスケールによって大きく異なる。
AE-LLMは、特定のデプロイメントシナリオに合わせて最適な効率技術を自動的に選択し、組み合わせる統合フレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across diverse applications, yet their deployment remains challenging due to substantial computational costs, memory requirements, and energy consumption. Recent empirical studies have demonstrated that no single efficiency technique is universally optimal; instead, the effectiveness of methods such as efficient attention mechanisms, mixture-of-experts (MoE), parameter-efficient fine-tuning, and quantization varies significantly depending on task characteristics, resource constraints, and model scales. Building upon these insights, we propose AE-LLM, a unified framework that automatically selects and combines optimal efficiency techniques tailored to specific deployment scenarios. Our approach introduces a multi-objective optimization framework that jointly considers accuracy, latency, memory footprint, and energy consumption, while accounting for hardware constraints and task requirements. We develop an efficient search algorithm that explores the combinatorial space of efficiency techniques across architecture, fine-tuning, and inference stages, identifying Pareto-optimal configurations. Extensive experiments across 15 models (0.5B-70B parameters) and 10 diverse tasks demonstrate that AE-LLM achieves an average of $2.8\times$ improvement in efficiency metrics while maintaining competitive accuracy (within 1.2\% of baseline), compared to static efficiency configurations. Furthermore, our framework generalizes effectively to vision-language models, achieving similar efficiency gains. Our contributions provide practitioners with an automated tool for navigating the complex trade-off landscape of LLM efficiency optimization.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションで顕著な成功を収めているが、計算コスト、メモリ要件、エネルギー消費のため、その展開は依然として困難である。
近年の実証研究は、単一効率技術が普遍的に最適ではないことを示した。代わりに、効率的な注意機構、Mix-of-Experts(MoE)、パラメータ効率の良い微調整、量子化といった手法の有効性は、タスク特性、資源制約、モデルスケールによって大きく異なる。
これらの知見に基づいて、特定のデプロイメントシナリオに合わせて最適な効率技術を自動的に選択し、組み合わせる統合フレームワークであるAE-LLMを提案する。
本手法では,ハードウェアの制約やタスク要件を考慮しつつ,精度,レイテンシ,メモリフットプリント,エネルギー消費を共同で検討する多目的最適化フレームワークを提案する。
アーキテクチャ,微調整,推論の各段階にまたがる効率性の組合せ空間を探索し,パレート最適構成を同定する効率的な探索アルゴリズムを開発した。
15のモデル(0.5B-70Bパラメータ)と10の多種多様なタスクにわたる大規模な実験により、AE-LLMは、静的な効率構成に比べて、競争の正確さ(ベースラインの1.2倍)を維持しながら、平均2.8倍の効率改善を実現していることが示された。
さらに、このフレームワークは視覚言語モデルに効果的に一般化し、同様の効率向上を実現する。
我々の貢献は、LLM効率最適化の複雑なトレードオフ景観をナビゲートする自動化ツールを実践者に提供します。
関連論文リスト
- MO-SAE:Multi-Objective Stacked Autoencoders Optimization for Edge Anomaly Detection [4.037548309391426]
Stacked AutoEncoders (SAE) はエッジ異常検出のシナリオで広く採用されている。
しかし、SAEのリソース集約性は、エッジデバイスに重大な課題をもたらす可能性がある。
本稿では、これらの重要な要素を協調的に考慮し、バランスよく適応的なシステムレベルの最適化を実現するための統合最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-14T11:10:59Z) - Software-Hardware Co-optimization for Modular E2E AV Paradigm: A Unified Framework of Optimization Approaches, Simulation Environment and Evaluation Metrics [21.03304462504213]
本稿では,ME2E自律運転推論のための再利用可能なソフトウェアとハードウェアの共同最適化およびクローズドループ評価フレームワークを提案する。
提案フレームワークは,推定遅延とエネルギー消費を大幅に低減しつつ,ベースラインレベルの駆動性能を維持する。
論文 参考訳(メタデータ) (2026-01-12T10:22:50Z) - Energy Considerations of Large Language Model Inference and Efficiency Optimizations [28.55549828393871]
大規模言語モデル(LLM)の規模と採用が拡大するにつれて、その計算と環境コストは上昇し続けている。
多様なNLPおよびAIワークロードにまたがる共通推論効率最適化のエネルギー含意を系統的に分析する。
本研究により, 推定効率最適化の適切な適用により, 最適化されていないベースラインから最大73%のエネルギー使用量を削減できることが判明した。
論文 参考訳(メタデータ) (2025-04-24T15:45:05Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。
BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。
我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文 参考訳(メタデータ) (2024-12-03T19:20:08Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Efficient and Robust Bayesian Selection of Hyperparameters in Dimension
Reduction for Visualization [0.0]
本稿では,次元減少(DR)アルゴリズムにおけるハイパーパラメータ選択のための,効率的かつ堅牢な自動チューニングフレームワークを提案する。
提案手法により,多目的トレードオフを用いた効率的なハイパーパラメータ選択が可能となり,データ駆動分析が可能となった。
我々は,複数の品質指標を用いて,様々な合成および実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-06-01T05:36:22Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。