論文の概要: Democratizing LLM Efficiency: From Hyperscale Optimizations to Universal Deployability
- arxiv url: http://arxiv.org/abs/2511.20662v1
- Date: Mon, 03 Nov 2025 18:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.313009
- Title: Democratizing LLM Efficiency: From Hyperscale Optimizations to Universal Deployability
- Title(参考訳): LLM効率の民主化 - ハイパースケール最適化からユニバーサル展開性まで
- Authors: Hen-Hsen Huang,
- Abstract要約: 次のフロンティアは、スケールにおけるより高度な技術ではなく、堅牢なシンプルさ、すなわち、控えめなリソースと最小限の専門知識の下で成長する効率である、と私たちは主張する。
我々は、より効率的なアーキテクチャで事前訓練されたモデルをトレーニングせずに再適合させ、アライメントを維持する軽量な微調整を発明する、という新しい研究課題を提案する。
- 参考スコア(独自算出の注目度): 18.108312004360048
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have become indispensable, but the most celebrated efficiency methods -- mixture-of-experts (MoE), speculative decoding, and complex retrieval-augmented generation (RAG) -- were built for hyperscale providers with vast infrastructure and elite teams. Outside that context, their benefits collapse into overhead, fragility, and wasted carbon. The result is that a handful of Big Tech companies benefit, while thousands of hospitals, schools, governments, and enterprises are left without viable options. We argue that the next frontier is not greater sophistication at scale, but robust simplicity: efficiency that thrives under modest resources and minimal expertise. We propose a new research agenda: retrofitting pretrained models with more efficient architectures without retraining, inventing lightweight fine-tuning that preserves alignment, making reasoning economical despite long chains of thought, enabling dynamic knowledge management without heavy RAG pipelines, and adopting Overhead-Aware Efficiency (OAE) as a standard benchmark. By redefining efficiency to include adoption cost, sustainability, and fairness, we can democratize LLM deployment -- ensuring that optimization reduces inequality and carbon waste rather than amplifying them.
- Abstract(参考訳): 大規模言語モデル (LLM) は必要不可欠なものとなっているが、最もよく知られた効率の手法であるMix-of-experts (MoE)、投機的復号化、複雑な検索強化世代 (RAG) は、巨大なインフラとエリートチームを持つハイパースケールプロバイダ向けに構築されている。
その文脈以外では、それらの利点はオーバーヘッド、脆弱、無駄な炭素に崩壊します。
その結果、少数のビッグテック企業が恩恵を受けており、何千もの病院、学校、政府、そして企業は、実現可能な選択肢のないまま残されている。
次のフロンティアは、スケールにおけるより高度な技術ではなく、堅牢なシンプルさ、すなわち、控えめなリソースと最小限の専門知識の下で成長する効率である、と私たちは主張する。
我々は,事前学習されたモデルを,より効率的なアーキテクチャで再調整し,アライメントを維持する軽量な微調整を考案し,長い思考の連鎖にもかかわらず経済的に理性を持たせること,重いRAGパイプラインを使わずに動的知識管理を可能にすること,OAE(Overhead-Aware Efficiency)を標準ベンチマークとして採用すること,という新たな研究課題を提案する。
導入コスト、持続可能性、公平性を含む効率を再定義することで、LLMのデプロイメントを民主化できます。
関連論文リスト
- DEPO: Dual-Efficiency Preference Optimization for LLM Agents [75.6723341304463]
本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。
WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
論文 参考訳(メタデータ) (2025-11-19T12:38:43Z) - Computational Economics in Large Language Models: Exploring Model Behavior and Incentive Design under Resource Constraints [1.00707850217229]
大規模言語モデル(LLM)は計算コストによって制限される。
我々は, LLMを資源制約されたエージェントの内部経済として扱う「計算経済学」の枠組みを導入する。
計算が不十分な場合、標準LLMは精度を保ちながら高価値トークンに注意を向ける。
論文 参考訳(メタデータ) (2025-08-14T07:55:45Z) - From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs [23.253571170594455]
大規模言語モデル(LLM)は、非常に高度な人工知能を持つ。
本稿では,3段階の低コストエンドツーエンドLCMデプロイメントパイプラインを提案する。
性能が向上し、コストが削減された超小型オンラインモデルを生産する。
論文 参考訳(メタデータ) (2025-04-18T05:25:22Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [77.79640601822341]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - EffiQA: Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs [11.323661062578799]
EffiQAは、グローバルプランニング、効率的なKG探査、自己回帰という3つの段階で構成されている。
複数のKBQAベンチマークに関する実証的な証拠は、EffiQAの有効性を示している。
提案された新しいフレームワークが、効率的で知識集約的なクエリの道を開くことを期待しています。
論文 参考訳(メタデータ) (2024-06-03T11:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。