Fugu-MT 論文翻訳(概要): Performance Trade-offs of Optimizing Small Language Models for E-Commerce

論文の概要: Performance Trade-offs of Optimizing Small Language Models for E-Commerce

arxiv url: http://arxiv.org/abs/2510.21970v1
Date: Fri, 24 Oct 2025 18:49:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 15:28:14.718303
Title: Performance Trade-offs of Optimizing Small Language Models for E-Commerce
Title（参考訳）: 電子商取引における小言語モデル最適化の性能トレードオフ
Authors: Josip Tomo Licardo, Nikola Tankovic,
Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成タスクにおける最先端のパフォーマンスを提供する。本稿では,資源効率の代替として,より小型でオープンウェイトなモデルの実現可能性について検討する。
参考スコア（独自算出の注目度）: 1.0312968200748118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) offer state-of-the-art performance in natural language understanding and generation tasks. However, the deployment of leading commercial models for specialized tasks, such as e-commerce, is often hindered by high computational costs, latency, and operational expenses. This paper investigates the viability of smaller, open-weight models as a resource-efficient alternative. We present a methodology for optimizing a one-billion-parameter Llama 3.2 model for multilingual e-commerce intent recognition. The model was fine-tuned using Quantized Low-Rank Adaptation (QLoRA) on a synthetically generated dataset designed to mimic real-world user queries. Subsequently, we applied post-training quantization techniques, creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results demonstrate that the specialized 1B model achieves 99% accuracy, matching the performance of the significantly larger GPT-4.1 model. A detailed performance analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF formats on a CPU achieved a speedup of up to 18x in inference throughput and a reduction of over 90% in RAM consumption compared to the FP16 baseline. We conclude that small, properly optimized open-weight models are not just a viable but a more suitable alternative for domain-specific applications, offering state-of-the-art accuracy at a fraction of the computational cost.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語の理解と生成タスクにおける最先端のパフォーマンスを提供する。しかし、電子商取引のような専門業務のための主要な商用モデルの展開は、しばしば高い計算コスト、レイテンシ、運用コストによって妨げられる。本稿では,資源効率の代替として,より小型でオープンウェイトなモデルの実現可能性について検討する。マルチリンガル電子商取引意図認識のための1ビリオンパラメータLlama 3.2モデルを最適化する手法を提案する。このモデルは、現実世界のユーザクエリを模倣するように設計された合成データセット上で、Quantized Low-Rank Adaptation (QLoRA)を使用して微調整された。その後、トレーニング後の量子化手法を適用し、GPU最適化(GPTQ)とCPU最適化(GGUF)バージョンを作成した。以上の結果から, GPT-4.1モデルの精度を99%向上し, GPT-4.1モデルと比較した。 4ビットのGPTQはVRAM使用率を41%削減したが、遅延化オーバーヘッドのため、古いGPUアーキテクチャ(NVIDIA T4)ではパラドックス的に82%低下した。逆に、CPU上のGGUFフォーマットは、FP16ベースラインと比較して、推論スループットが最大18倍、RAM消費が90%以上向上した。我々は、小型で適切に最適化されたオープンウェイトモデルは、単に実行可能なだけでなく、ドメイン固有のアプリケーションに対してより適切な代替手段であり、計算コストのごく一部で最先端の精度を提供すると結論付けている。

関連論文リスト

Lightweight Transformer Architectures for Edge Devices in Real-Time Applications [0.0]
本調査では,エッジデプロイメント用に設計された軽量トランスフォーマーアーキテクチャについて検討する。我々は、MobileBERT、TinyBERT、DistilBERT、EfficientFormer、EdgeFormer、MobileViTなど、注目すべき軽量版を体系的にレビューした。実験により, モデルサイズを4～10倍, 推論遅延を3～9倍削減し, モデル精度を75～96%向上できることを確認した。
論文参考訳（メタデータ） (2026-01-05T01:04:25Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。 EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。異なるモデルファミリー間で顕著な効率向上を示す。
論文参考訳（メタデータ） (2025-02-05T22:15:21Z)
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文参考訳（メタデータ） (2024-11-28T13:45:42Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。 FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。 QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文参考訳（メタデータ） (2023-05-23T17:50:33Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文参考訳（メタデータ） (2023-03-07T19:12:31Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。