論文の概要: Democratizing LLM Efficiency: From Hyperscale Optimizations to Universal Deployability
- arxiv url: http://arxiv.org/abs/2511.20662v1
- Date: Mon, 03 Nov 2025 18:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.313009
- Title: Democratizing LLM Efficiency: From Hyperscale Optimizations to Universal Deployability
- Title(参考訳): LLM効率の民主化 - ハイパースケール最適化からユニバーサル展開性まで
- Authors: Hen-Hsen Huang,
- Abstract要約: 次のフロンティアは、スケールにおけるより高度な技術ではなく、堅牢なシンプルさ、すなわち、控えめなリソースと最小限の専門知識の下で成長する効率である、と私たちは主張する。
我々は、より効率的なアーキテクチャで事前訓練されたモデルをトレーニングせずに再適合させ、アライメントを維持する軽量な微調整を発明する、という新しい研究課題を提案する。
- 参考スコア(独自算出の注目度): 18.108312004360048
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have become indispensable, but the most celebrated efficiency methods -- mixture-of-experts (MoE), speculative decoding, and complex retrieval-augmented generation (RAG) -- were built for hyperscale providers with vast infrastructure and elite teams. Outside that context, their benefits collapse into overhead, fragility, and wasted carbon. The result is that a handful of Big Tech companies benefit, while thousands of hospitals, schools, governments, and enterprises are left without viable options. We argue that the next frontier is not greater sophistication at scale, but robust simplicity: efficiency that thrives under modest resources and minimal expertise. We propose a new research agenda: retrofitting pretrained models with more efficient architectures without retraining, inventing lightweight fine-tuning that preserves alignment, making reasoning economical despite long chains of thought, enabling dynamic knowledge management without heavy RAG pipelines, and adopting Overhead-Aware Efficiency (OAE) as a standard benchmark. By redefining efficiency to include adoption cost, sustainability, and fairness, we can democratize LLM deployment -- ensuring that optimization reduces inequality and carbon waste rather than amplifying them.
- Abstract(参考訳): 大規模言語モデル (LLM) は必要不可欠なものとなっているが、最もよく知られた効率の手法であるMix-of-experts (MoE)、投機的復号化、複雑な検索強化世代 (RAG) は、巨大なインフラとエリートチームを持つハイパースケールプロバイダ向けに構築されている。
その文脈以外では、それらの利点はオーバーヘッド、脆弱、無駄な炭素に崩壊します。
その結果、少数のビッグテック企業が恩恵を受けており、何千もの病院、学校、政府、そして企業は、実現可能な選択肢のないまま残されている。
次のフロンティアは、スケールにおけるより高度な技術ではなく、堅牢なシンプルさ、すなわち、控えめなリソースと最小限の専門知識の下で成長する効率である、と私たちは主張する。
我々は,事前学習されたモデルを,より効率的なアーキテクチャで再調整し,アライメントを維持する軽量な微調整を考案し,長い思考の連鎖にもかかわらず経済的に理性を持たせること,重いRAGパイプラインを使わずに動的知識管理を可能にすること,OAE(Overhead-Aware Efficiency)を標準ベンチマークとして採用すること,という新たな研究課題を提案する。
導入コスト、持続可能性、公平性を含む効率を再定義することで、LLMのデプロイメントを民主化できます。
関連論文リスト
- AI Cap-and-Trade: Efficiency Incentives for Accessibility and Sustainability [16.11189838235793]
我々は、AI効率をインセンティブとする市場ベースの手法の研究、実装について論じる。
行動を呼び起こすため、我々はAIのためのキャップ・アンド・トレードシステムを提案する。
論文 参考訳(メタデータ) (2026-01-27T18:53:21Z) - Green LLM Techniques in Action: How Effective Are Existing Techniques for Improving the Energy Efficiency of LLM-Based Applications in Industry? [2.3683790724077864]
大規模言語モデル(LLM)の急速な採用により、そのエネルギー消費に対する懸念が高まっている。
オランダのITサービス企業であるSchuberg Philisで、業界状況におけるアプリケーションを分析しました。
プロンプト最適化や2ビット量子化といったいくつかの手法は、エネルギー使用量を最大90%削減することができた。
他の品質を実質的に損なわずに大幅なエネルギー削減を達成した唯一の技術は、NvidiaのPrompt Task and Complexityによる小型で大規模なモデルコラボレーションであった。
論文 参考訳(メタデータ) (2026-01-05T19:35:29Z) - DEPO: Dual-Efficiency Preference Optimization for LLM Agents [75.6723341304463]
本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。
WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
論文 参考訳(メタデータ) (2025-11-19T12:38:43Z) - Computational Economics in Large Language Models: Exploring Model Behavior and Incentive Design under Resource Constraints [1.00707850217229]
大規模言語モデル(LLM)は計算コストによって制限される。
我々は, LLMを資源制約されたエージェントの内部経済として扱う「計算経済学」の枠組みを導入する。
計算が不十分な場合、標準LLMは精度を保ちながら高価値トークンに注意を向ける。
論文 参考訳(メタデータ) (2025-08-14T07:55:45Z) - From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs [23.253571170594455]
大規模言語モデル(LLM)は、非常に高度な人工知能を持つ。
本稿では,3段階の低コストエンドツーエンドLCMデプロイメントパイプラインを提案する。
性能が向上し、コストが削減された超小型オンラインモデルを生産する。
論文 参考訳(メタデータ) (2025-04-18T05:25:22Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [77.79640601822341]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - EffiQA: Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs [11.323661062578799]
EffiQAは、グローバルプランニング、効率的なKG探査、自己回帰という3つの段階で構成されている。
複数のKBQAベンチマークに関する実証的な証拠は、EffiQAの有効性を示している。
提案された新しいフレームワークが、効率的で知識集約的なクエリの道を開くことを期待しています。
論文 参考訳(メタデータ) (2024-06-03T11:56:07Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。