論文の概要: Efficient Large Language Models with Zero-Shot Adjustable Acceleration
- arxiv url: http://arxiv.org/abs/2509.01190v1
- Date: Mon, 01 Sep 2025 07:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.575101
- Title: Efficient Large Language Models with Zero-Shot Adjustable Acceleration
- Title(参考訳): ゼロショット適応型アクセラレーションによる効率的大言語モデル
- Authors: Sajjad Kachuee, Mohammad Sharifkhani,
- Abstract要約: 本稿では、新たな微調整を必要とせず、推論中のハードウェア使用量を動的に調整する新しいトレーニングおよび推論手法であるZero-Shot Adjustable Accelerationを紹介する。
実験の結果,ゼロショット方式で広範囲の加速が可能であり,ベースラインに比べて最大11倍の高速化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 4.125187280299246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using Large Language Models (LLMs) in real-world applications presents significant challenges, particularly in balancing computational efficiency and performance. Optimizing acceleration after the fine-tuning phase and during inference is crucial for building an efficient architecture. This paper introduces Zero-Shot Adjustable Acceleration, a novel training and inference method that dynamically adjusts hardware usage during inference without requiring additional fine-tuning. The proposed approach is applied to newly developed models and evaluated across multiple classification and text generation tasks. Experimental results demonstrate that the method enables a wide range of acceleration in a zero-shot manner and achieves up to a 11x speedup compared to the baseline.
- Abstract(参考訳): 現実世界のアプリケーションでLLM(Large Language Models)を使用することは、特に計算効率と性能のバランスをとる上で大きな課題となる。
効率的なアーキテクチャを構築するためには、微調整後の加速と推論後の加速を最適化することが不可欠である。
本稿では、新たな微調整を必要とせず、推論中のハードウェア使用量を動的に調整する新しいトレーニングおよび推論手法であるZero-Shot Adjustable Accelerationを紹介する。
提案手法は新たに開発されたモデルに適用され,複数の分類タスクとテキスト生成タスクにまたがって評価される。
実験の結果,ゼロショット方式で広範囲の加速が可能であり,ベースラインに比べて最大11倍の高速化を実現していることがわかった。
関連論文リスト
- DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information [3.6859322366469933]
ReLoRAやGaLoreのような手法は、低ランクのサブスペースを更新することでこの問題に対処しようとしている。
本稿では,LoRAのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える,パラメータ効率のトレーニング手法であるSwitchLoRAを紹介する。
論文 参考訳(メタデータ) (2024-06-03T05:40:34Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - FastRE: Towards Fast Relation Extraction with Convolutional Encoder and
Improved Cascade Binary Tagging Framework [13.4666880421568]
本稿では,畳み込みエンコーダと改良されたカスケードバイナリタグフレームワークに基づく高速関係抽出モデル(FastRE)を提案する。
FastREは、最先端モデルと比較して3~10倍のトレーニング速度、7~15倍の推論速度、1/100のパラメータを実現している。
論文 参考訳(メタデータ) (2022-05-05T07:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。