論文の概要: Exploring the Limits of Model Compression in LLMs: A Knowledge Distillation Study on QA Tasks
- arxiv url: http://arxiv.org/abs/2507.07630v1
- Date: Thu, 10 Jul 2025 10:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.365144
- Title: Exploring the Limits of Model Compression in LLMs: A Knowledge Distillation Study on QA Tasks
- Title(参考訳): LLMにおけるモデル圧縮の限界を探る:QA課題に関する知識蒸留研究
- Authors: Joyeeta Datta, Niclas Doll, Qusai Ramadan, Zeyd Boukhers,
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにおいて優れたパフォーマンスを示している。
本研究は、知識蒸留(KD)を用いてLLMを圧縮できる範囲について検討する。
Pythia と Qwen2.5 の2つのQAベンチマーク (SQuAD と MLQA) で, ゼロショットとワンショットのプロンプト条件下で蒸留した学生モデルを評価した。
- 参考スコア(独自算出の注目度): 3.729861876440969
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated outstanding performance across a range of NLP tasks, however, their computational demands hinder their deployment in real-world, resource-constrained environments. This work investigates the extent to which LLMs can be compressed using Knowledge Distillation (KD) while maintaining strong performance on Question Answering (QA) tasks. We evaluate student models distilled from the Pythia and Qwen2.5 families on two QA benchmarks, SQuAD and MLQA, under zero-shot and one-shot prompting conditions. Results show that student models retain over 90% of their teacher models' performance while reducing parameter counts by up to 57.1%. Furthermore, one-shot prompting yields additional performance gains over zero-shot setups for both model families. These findings underscore the trade-off between model efficiency and task performance, demonstrating that KD, combined with minimal prompting, can yield compact yet capable QA systems suitable for resource-constrained applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクにおいて優れた性能を示してきたが、その計算要求は、実際のリソース制約のある環境への展開を妨げる。
本研究は,質問応答(QA)タスクにおいて高い性能を維持しつつ,知識蒸留(KD)を用いてLLMを圧縮できる範囲について検討する。
Pythia と Qwen2.5 の2つのQAベンチマーク (SQuAD と MLQA) で, ゼロショットとワンショットのプロンプト条件下で蒸留した学生モデルを評価した。
その結果、生徒モデルは教師モデルのパフォーマンスの90%以上を維持しつつ、パラメータ数を57.1%まで削減していることがわかった。
さらに、ワンショットプロンプトにより、両方のモデルファミリのゼロショット設定よりもパフォーマンスが向上する。
これらの結果は、モデル効率とタスク性能のトレードオフを強調し、KDと最小限のプロンプトを組み合わせることで、リソース制約のあるアプリケーションに適したコンパクトで有能なQAシステムが得られることを示した。
関連論文リスト
- Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - SDQ: Sparse Decomposed Quantization for LLM Inference [6.631358865967519]
SDQ(Sparse Decomposed Quantization)は、構造化された空間と量子化の両方を利用して高い計算効率とメモリ効率を実現する。
評価の結果,SDQ は 1% の精度低下で 4 倍の効率の計算スループットを達成できることがわかった。
論文 参考訳(メタデータ) (2024-06-19T22:12:51Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。