論文の概要: TOGGLE: Temporal Logic-Guided Large Language Model Compression for Edge
- arxiv url: http://arxiv.org/abs/2512.16855v1
- Date: Thu, 18 Dec 2025 18:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.207273
- Title: TOGGLE: Temporal Logic-Guided Large Language Model Compression for Edge
- Title(参考訳): TOGGLE: エッジのための時間論理型大言語モデル圧縮
- Authors: Khurram Khalil, Khaza Anuarul Hoque,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語のタスクにまたがる例外的なパフォーマンスを提供する。
量子化やプルーニングといった既存の圧縮技術は、しばしば重要な言語特性を劣化させる。
本稿では,時間論理ガイド型大規模言語モデル圧縮(TOGGLE)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) deliver exceptional performance across natural language tasks but demand substantial computational resources, limiting their deployment on resource-constrained edge devices. Existing compression techniques, such as quantization and pruning, often degrade critical linguistic properties and lack formal guarantees for preserving model behavior. We propose Temporal Logic-Guided Large Language Model Compression (TOGGLE), a novel framework that leverages Signal Temporal Logic (STL) to formally specify and enforce linguistic properties during compression. TOGGLE employs an STL robustness-guided Bayesian optimization to systematically explore layer-wise quantization and pruning configurations, generating compressed models that formally satisfy specified linguistic constraints without retraining or fine-tuning. Evaluating TOGGLE on four LLM architectures (GPT-2, DeepSeek-V2 7B, LLaMA 3 8B, and Mistral 7B), we achieve up to 3.3x reduction in computational costs (FLOPs) and up to a 68.8% reduction in model size while satisfying all linguistic properties. TOGGLE represents the first integration of formal methods into LLM compression, enabling efficient, verifiable deployment of LLMs on edge hardware.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語タスク全体にわたって例外的なパフォーマンスを提供するが、かなりの計算資源を必要とし、リソースに制約のあるエッジデバイスへのデプロイメントを制限する。
量子化やプルーニングのような既存の圧縮技術は、しばしば重要な言語特性を劣化させ、モデル行動を保存するための正式な保証を欠いている。
本稿では,STL(Signal Temporal Logic)を活用して,圧縮中の言語特性を正式に指定し,強制する新しいフレームワークであるTOGGLEを提案する。
TOGGLEは、STLロバスト性誘導型ベイズ最適化を用いて、階層的な量子化とプルーニング構成を体系的に探索し、再訓練や微調整をすることなく、指定された言語制約を正式に満たす圧縮モデルを生成する。
4つのLLMアーキテクチャ(GPT-2、DeepSeek-V2 7B、LLaMA 3 8B、Mistral 7B)上でTOGGLEを評価することにより、計算コスト(FLOP)の最大3.3倍、モデルサイズを最大68.8%削減し、全ての言語特性を満たす。
TOGGLEは、LLM圧縮への形式的メソッドの最初の統合であり、エッジハードウェアにLLMを効率よく、検証可能なデプロイを可能にする。
関連論文リスト
- SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models [25.058673320372677]
大規模言語モデル(LLM)は法則のスケーリングによって駆動され、大規模なモデルサイズでインテリジェンス緊急を達成する。
本研究は、より大規模な最適化モデルの性能を維持することに焦点を当てたプルーニング対応事前学習を提案する。
我々は,LLM圧縮のスケールアップと境界の拡張により,高品質なエッジ言語モデルであるEfficientLLMを実現することを明らかにした。
論文 参考訳(メタデータ) (2025-02-10T16:51:03Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。