論文の概要: Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models
- arxiv url: http://arxiv.org/abs/2512.07419v1
- Date: Mon, 08 Dec 2025 10:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.848179
- Title: Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models
- Title(参考訳): 混合精度量子化の革命:大規模言語モデルによる学習不要な自動プロキシ発見を目指して
- Authors: Haidong Kang, Jun Du, Lihong Lin,
- Abstract要約: 混合精度量子化(MPQ)は、ディープニューラルネットワーク(DNN)をOFメモリ(OOM)ボトルネックから解放する。
本稿では,Large Language Models (LLMs) による学習自由自動プロキシ (dubed TAP) 発見フレームワークを提案する。
ブラックボックスLLMとタフMPQタスクのギャップを埋めるため,我々は,DPOに基づく強化学習を提案する。
- 参考スコア(独自算出の注目度): 10.056539217879907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed-Precision Quantization (MPQ) liberates the Deep Neural Networks (DNNs) from the Out-Of-Memory (OOM) bottleneck, which garnered increasing research attention. However, conventional methods either searched from costly differentiable optimization, which is neither efficient nor flexible, or learned a quantized DNN from the proxy (i.e., HAWQ) manually designed by human experts, which is labor-intensive and requires huge expert knowledge. Can we design a proxy without involving any human experts and training? In this paper, we provide an affirmative answer by proposing a novel Large Language Models (LLMs)-driven Training-free Automatic Proxy (dubbed TAP) discovery framework, which reforms the design paradigm of MPQ by utilizing LLMs to find superior TAP tailored for MPQ, automatically. In addition, to bridge the gap between black-box LLMs and the tough MPQ task, we ingeniously propose simple Direct Policy Optimization (DPO) based reinforcement learning to enhance LLMs' reasoning by optimizing prompts, which can construct a positive feedback loop between the LLM and the MPQ task, enabling LLMs to generate better TAP in the next evolution. Extensive experiments on mainstream benchmarks demonstrate that TAP achieves state-of-the-art performance. Finally, we truly believe that our TAP will significantly contribute to the MPQ community by providing a new perspective on LLM-driven design algorithms.
- Abstract(参考訳): 混合精度量子化(MPQ)は、ディープニューラルネットワーク(DNN)をOFメモリ(OOM)ボトルネックから解放する。
しかし、従来の手法は、効率的でも柔軟でもないコストのかかる微分可能最適化から探索するか、あるいは人間の専門家が手作業で設計したプロキシ(HAWQ)から量子化されたDNNを学習する。
ヒューマンエキスパートやトレーニングを伴わずにプロキシを設計できますか?
本稿では,新たなLarge Language Models (LLMs) 駆動のトレーニングフリー自動プロキシ (dubed TAP) 発見フレームワークを提案する。
さらに, ブラックボックスLLMとタフMPQタスクのギャップを埋めるため, プロンプトを最適化することで, LLMの推論を強化するため, 簡易な直接ポリシー最適化(DPO)に基づく強化学習を提案し, 次の進化において, LLMとMPQタスク間の正のフィードバックループを構築することができる。
主流ベンチマークに関する大規模な実験は、TAPが最先端のパフォーマンスを達成することを実証している。
最後に、私たちのTAPはLLM駆動設計アルゴリズムに関する新たな視点を提供することで、MPQコミュニティに大きく貢献すると考えています。
関連論文リスト
- Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。
本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。
コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-02-14T17:12:20Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。