論文の概要: Language Model Distillation: A Temporal Difference Imitation Learning Perspective
- arxiv url: http://arxiv.org/abs/2505.20335v1
- Date: Sat, 24 May 2025 12:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.181746
- Title: Language Model Distillation: A Temporal Difference Imitation Learning Perspective
- Title(参考訳): 言語モデル蒸留 : 時間差模倣学習の視点から
- Authors: Zishun Yu, Shangzhe Li, Xinhua Zhang,
- Abstract要約: 蒸留は、大きな言語モデルをより小さく、より効率的なものに圧縮する一般的な慣習となっている。
本稿では,教師モデルの分布空間を利用して,時間差に基づく蒸留のための一般的な枠組みを提案する。
本研究は, 時間差学習フレームワークを設計し, 動作空間を縮小する。
- 参考スコア(独自算出の注目度): 13.97573523140987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have led to significant progress across many NLP tasks, although their massive sizes often incur substantial computational costs. Distillation has become a common practice to compress these large and highly capable models into smaller, more efficient ones. Many existing language model distillation methods can be viewed as behavior cloning from the perspective of imitation learning or inverse reinforcement learning. This viewpoint has inspired subsequent studies that leverage (inverse) reinforcement learning techniques, including variations of behavior cloning and temporal difference learning methods. Rather than proposing yet another specific temporal difference method, we introduce a general framework for temporal difference-based distillation by exploiting the distributional sparsity of the teacher model. Specifically, it is often observed that language models assign most probability mass to a small subset of tokens. Motivated by this observation, we design a temporal difference learning framework that operates on a reduced action space (a subset of vocabulary), and demonstrate how practical algorithms can be derived and the resulting performance improvements.
- Abstract(参考訳): 大規模な言語モデルは、多くのNLPタスクにおいて顕著な進歩をもたらしたが、その大きなサイズは、しばしば相当な計算コストを発生させる。
蒸留は、これらの大型で高機能なモデルをより小さく、より効率的なものに圧縮する一般的な習慣となっている。
多くの既存の言語モデル蒸留法は、模倣学習や逆強化学習の観点から行動クローニングと見なすことができる。
この視点は、行動クローニングのバリエーションや時間差学習方法を含む(逆)強化学習技術を活用したその後の研究にインスピレーションを与えている。
また, 時間差分法を提案するのではなく, 時間差分法に基づく蒸留の一般的な枠組みを, 教師モデルの分布空間性を利用して導入する。
具体的には、言語モデルがほとんどの確率質量をトークンの小さな部分集合に割り当てることがしばしば観察される。
本研究は, 時間差学習フレームワークを設計し, 動作空間の縮小(語彙のサブセット)を図り, 実用的なアルゴリズムの導出と結果のパフォーマンス向上を実証する。
関連論文リスト
- DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Orthogonal Subspace Learning for Language Model Continual Learning [45.35861158925975]
O-LoRAは、言語モデルにおける継続学習のためのシンプルで効率的なアプローチである。
提案手法は,パラメータの余分な追加コストのみを誘導し,再生にユーザデータストレージを必要としない。
論文 参考訳(メタデータ) (2023-10-22T02:23:44Z) - Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability [43.984177729641615]
本稿では,大規模教師の視覚言語モデルから軽量学生モデルへの視覚表現の蒸留について検討する。
本稿では,いくつかの指標を提案し,その手法を検証するための広範囲な実験を行う。
その結果,オープン・ボキャブラリ・アウト・オブ・ディストリビューションの分類において,ゼロショットと少数ショットの学生のパフォーマンスが著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T17:05:26Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。