論文の概要: Basic Reading Distillation
- arxiv url: http://arxiv.org/abs/2507.19741v2
- Date: Tue, 29 Jul 2025 19:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.826726
- Title: Basic Reading Distillation
- Title(参考訳): 基本読解蒸留
- Authors: Zhi Zhou, Sirui Miao, Xiangyu Duan, Hao Yang, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理領域において顕著な能力を示している。
彼らは現実世界への展開を制限する高い計算資源を必要としている。
そこで本研究では,LLMの基本読取動作を模倣する小さなモデルを教育する基礎読取蒸留(BRD)を提案する。
- 参考スコア(独自算出の注目度): 18.6471904381334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable abilities in various natural language processing areas, but they demand high computation resources which limits their deployment in real-world. Distillation is one technique to solve this problem through either knowledge distillation or task distillation. Both distillation approaches train small models to imitate specific features of LLMs, but they all neglect basic reading education for small models on generic texts that are \emph{unrelated} to downstream tasks. In this paper, we propose basic reading distillation (BRD) which educates a small model to imitate LLMs basic reading behaviors, such as named entity recognition, question raising and answering, on each sentence. After such basic education, we apply the small model on various tasks including language inference benchmarks and BIG-bench tasks. It shows that the small model can outperform or perform comparable to over 20x bigger LLMs. Analysis reveals that BRD effectively influences the probability distribution of the small model, and has orthogonality to either knowledge distillation or task distillation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理領域において顕著な能力を示してきたが、実世界への展開を制限する高い計算資源を必要としている。
蒸留は、知識蒸留またはタスク蒸留によってこの問題を解決する1つの手法である。
両方の蒸留法は、LLMの特定の特徴を模倣するために小さなモデルを訓練するが、これらは全て、下流のタスクに "emph{unrelated}" であるジェネリックテキスト上の小さなモデルに対する基本的な読書教育を無視している。
本稿では, LLM の基本読影行動, 名前付きエンティティ認識, 質問の発声, 回答など, 小さなモデルで模倣する基本読影蒸留 (BRD) を提案する。
このような基礎教育の後、言語推論ベンチマークやBIGベンチタスクなど様々なタスクに小さなモデルを適用する。
小型モデルは20倍以上のLLMに匹敵する性能を示す。
分析の結果、BRDは小さなモデルの確率分布に効果的に影響を与え、知識蒸留やタスク蒸留に直交することがわかった。
関連論文リスト
- Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability [3.224880576815583]
大規模言語モデルの高い計算とストレージ要求は、リソース制約のある環境への展開を制限する。
これまでの研究では, 学習データの生成と学生モデルの訓練のための蒸留法がいくつか導入されている。
その関連性にも拘わらず, 現状蒸留法がモデル性能および説明可能性に与える影響については, 十分に検討されていない。
論文 参考訳(メタデータ) (2025-04-22T17:32:48Z) - Quantification of Large Language Model Distillation [22.680566179355335]
モデル蒸留の評価と定量化のための枠組みを提案する。
本手法は, 同一性認知の矛盾を同定し, 同一性関連情報の知覚・表現方法の相違性を評価すること, そして, 同一性化の程度を測定するために, モデル間での多粒度応答類似性を解析することの2つの重要な側面に対処する。
論文 参考訳(メタデータ) (2025-01-22T03:57:52Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Generation-Distillation for Efficient Natural Language Understanding in
Low-Data Settings [5.929956715430167]
大規模言語モデル(LM)を用いた伝達学習は、幅広い自然言語理解タスクにおいて劇的な性能向上をもたらした。
これらの大きなLMのサイズとメモリフットプリントは、多くのシナリオでのデプロイを困難にしている。
最近の研究では、知識蒸留が潜在的な解決策として指摘されており、与えられたタスクのトレーニングデータが豊富であれば、大きな(教師)LMを最小限の性能を失う小さなタスク固有(学生)ネットワークに蒸留することが可能である。
論文 参考訳(メタデータ) (2020-01-25T08:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。