論文の概要: Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models
- arxiv url: http://arxiv.org/abs/2412.14528v1
- Date: Thu, 19 Dec 2024 04:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:09.712402
- Title: Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models
- Title(参考訳): 言語モデルに基づくユニバーサルクロストケナイザー知識蒸留のためのマルチレベル最適輸送
- Authors: Xiao Cui, Mo Zhu, Yulei Qin, Liang Xie, Wengang Zhou, Houqiang Li,
- Abstract要約: マルチレベル最適輸送(MultiLevelOT)は、普遍的なクロストケナイザー知識蒸留のための最適な輸送を促進する新しいアプローチである。
本手法は,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
- 参考スコア(独自算出の注目度): 81.74999702045339
- License:
- Abstract: Knowledge distillation (KD) has become a prevalent technique for compressing large language models (LLMs). Existing KD methods are constrained by the need for identical tokenizers (i.e., vocabularies) between teacher and student models, limiting their versatility in handling LLMs of different architecture families. In this paper, we introduce the Multi-Level Optimal Transport (MultiLevelOT), a novel approach that advances the optimal transport for universal cross-tokenizer knowledge distillation. Our method aligns the logit distributions of the teacher and the student at both token and sequence levels using diverse cost matrices, eliminating the need for dimensional or token-by-token correspondence. At the token level, MultiLevelOT integrates both global and local information by jointly optimizing all tokens within a sequence to enhance robustness. At the sequence level, we efficiently capture complex distribution structures of logits via the Sinkhorn distance, which approximates the Wasserstein distance for divergence measures. Extensive experiments on tasks such as extractive QA, generative QA, and summarization demonstrate that the MultiLevelOT outperforms state-of-the-art cross-tokenizer KD methods under various settings. Our approach is robust to different student and teacher models across model families, architectures, and parameter sizes.
- Abstract(参考訳): 知識蒸留(KD)は,大規模言語モデル(LLM)の圧縮技術として広く用いられている。
既存のKDメソッドは、教師と生徒のモデル間で同一のトークン化子(つまり語彙)が必要であり、異なるアーキテクチャファミリのLLMを扱う際の汎用性を制限している。
本稿では,多層最適輸送(MultiLevelOT)について紹介する。
本手法では,多様なコスト行列を用いて,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列し,次元・トークン・バイ・トークン対応の必要性を解消する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
シークエンスレベルでは、スキンホルン距離を介してロジットの複雑な分布構造を効率的に捕捉し、ワッサーシュタイン距離を近似して発散度を測定する。
抽出QA, 生成QA, 要約などのタスクに対する大規模な実験により, MultiLevelOT は様々な条件下で最先端のクロストケナイザ KD 法より優れていることが示された。
私たちのアプローチは、モデルファミリ、アーキテクチャ、パラメータサイズの異なる学生モデルや教師モデルに対して堅牢です。
関連論文リスト
- Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - HEAL: Brain-inspired Hyperdimensional Efficient Active Learning [13.648600396116539]
本稿では,HDC分類に適した新しい能動学習フレームワークであるHyperdimensional Efficient Active Learning (HEAL)を紹介する。
HEALは、不確実性と多様性に基づく買収を通じて、ラベルなしのデータポイントを積極的に注釈付けし、より効率的なデータセットアノテーションと労働コストの削減につながる。
評価の結果,HEALは多種多様なAL品質のベースラインを超越し,多くのBNNや多様性誘導AL手法よりも顕著に高速な獲得を実現していることがわかった。
論文 参考訳(メタデータ) (2024-02-17T08:41:37Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z) - Multi-Level Contrastive Learning for Cross-Lingual Alignment [35.33431650608965]
マルチリンガルBERT(mBERT)のような言語間事前学習モデルは、様々な言語間下流のNLPタスクにおいて大きな性能を発揮している。
本稿では,事前学習モデルの言語間能力の向上を図るために,マルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-26T07:14:20Z) - Transfering Hierarchical Structure with Dual Meta Imitation Learning [4.868214177205893]
モデルに依存しないメタ学習を用いて,ハイレベルネットワークとサブスキルを反復的にメタ学習する階層的メタ模倣学習法を提案する。
そこで我々は,Meta-world citemetaworld ベンチマークによる最新の数発の模倣学習性能と,Kitchen 環境の長期タスクにおける競合結果を得た。
論文 参考訳(メタデータ) (2022-01-28T08:22:38Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - SetMargin Loss applied to Deep Keystroke Biometrics with Circle Packing
Interpretation [67.0845003374569]
本研究は,新しい距離距離学習法(DML)に基づくキーストロークバイオメトリックスのための新しい深層学習手法を提案する。
提案手法の有効性を実験的に証明し, キーストロークの生体認証を78,000名の被験者に対して行った。
論文 参考訳(メタデータ) (2021-09-02T13:26:57Z) - BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth
Mover's Distance [25.229624487344186]
高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。
本稿では,多層多層膜マッピングに基づく新しいBERT蒸留法を提案する。
我々のモデルは様々なNLPタスクに対して異なる教師層から適応的に学習することができる。
論文 参考訳(メタデータ) (2020-10-13T02:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。