論文の概要: CTPD: Cross Tokenizer Preference Distillation
- arxiv url: http://arxiv.org/abs/2601.11865v1
- Date: Sat, 17 Jan 2026 01:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.347697
- Title: CTPD: Cross Tokenizer Preference Distillation
- Title(参考訳): CTPD:クロストケナイザーの選好蒸留法
- Authors: Truong Nguyen, Phi Van Dat, Ngan Nguyen, Linh Ngo Van, Trung Le, Thanh Hong Nguyen,
- Abstract要約: クロスTokenizer Preference Distillation (CTPD) は、不均一なトークン化剤を用いたモデル間でのヒューマンアラインな振る舞いを伝達するための、最初の統合されたフレームワークである。
CTPDは,(1)教師と学生が正確な監督伝達のために共有キャラクターレベルスパンにマップするアラインド・スパン・プロジェクション,(2)信用割当を改善するためのTIS-DPO(Token-level Importance Smpling)のクロストケナイザ適応,(3)教師-アンコール・レファレンス(Teacher-Anchored Reference)の3つの重要なイノベーションを紹介した。
- 参考スコア(独自算出の注目度): 19.4149691480574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While knowledge distillation has seen widespread use in pre-training and instruction tuning, its application to aligning language models with human preferences remains underexplored, particularly in the more realistic cross-tokenizer setting. The incompatibility of tokenization schemes between teacher and student models has largely prevented fine-grained, white-box distillation of preference information. To address this gap, we propose Cross-Tokenizer Preference Distillation (CTPD), the first unified framework for transferring human-aligned behavior between models with heterogeneous tokenizers. CTPD introduces three key innovations: (1) Aligned Span Projection, which maps teacher and student tokens to shared character-level spans for precise supervision transfer; (2) a cross-tokenizer adaptation of Token-level Importance Sampling (TIS-DPO) for improved credit assignment; and (3) a Teacher-Anchored Reference, allowing the student to directly leverage the teacher's preferences in a DPO-style objective. Our theoretical analysis grounds CTPD in importance sampling, and experiments across multiple benchmarks confirm its effectiveness, with significant performance gains over existing methods. These results establish CTPD as a practical and general solution for preference distillation across diverse tokenization schemes, opening the door to more accessible and efficient alignment of language models.
- Abstract(参考訳): 知識蒸留は事前学習や指導訓練に広く用いられているが、言語モデルと人間の嗜好を整合させるための応用は、特により現実的なクロストケナイザー設定において、まだ探索されていない。
教師モデルと学生モデル間のトークン化スキームの非互換性は、選好情報の微細な白箱蒸留をほとんど妨げてきた。
このギャップに対処するため、異種トークン化装置を用いたモデル間での人間の協調動作を伝達する最初の統合フレームワークであるCTPD(Cross-Tokenizer Preference Distillation)を提案する。
CTPDは,(1)教師と学生のトークンを共有文字レベルスパンにマッピングして正確な監督伝達を行うアラインド・スパン・プロジェクション,(2)信用割当を改善するためのTIS-DPO(Token-level Importance Smpling)のクロストケナイザ適応,(3)教師-アンコレッド・レファレンス(Teacher-Anchored Reference)の3つの重要なイノベーションを紹介した。
本理論解析はCTPDの重要サンプリングを基礎としており,複数のベンチマークによる実験によりその有効性が確認され,既存手法よりも顕著な性能向上が得られた。
これらの結果から,CTPDは多種多様なトークン化スキームにまたがる嗜好蒸留のための実用的で汎用的なソリューションとして確立され,よりアクセシブルで効率的な言語モデルのアライメントへの扉が開かれた。
関連論文リスト
- From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance [20.096802351171377]
eコマース検索システムは,大規模言語モデルの直接適用を防止するために,厳格なレイテンシ要件に直面している。
本稿では,LLM から軽量で展開しやすい学生モデルへ推論機能を移行するための2段階推論蒸留フレームワークを提案する。
我々のフレームワークは、複数のメトリクスをまたいだ大幅な改善を実現し、その有効性と実用的価値を検証します。
論文 参考訳(メタデータ) (2025-10-13T06:46:43Z) - Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching [16.385782508179364]
蒸留は、Large Language Model (LLM) の教師から学生のLLMに知識を移すことで顕著な成功を収めた。
現在の蒸留法では、教師と学生の間で同様のトークン化剤が必要であり、その適用性は教師と学生のペアのごく一部に限られている。
そこで本研究では, クロストケナイザー蒸留法を開発した。
本手法は, 従来手法よりも高い性能を示しつつ, 基本的に異なるトークン化剤間で有効蒸留を可能にする最初の方法である。
論文 参考訳(メタデータ) (2025-03-25T21:44:10Z) - Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models [22.613040767122225]
教師の選好知識を全ての潜在的選好に対する確率分布としてモデル化した選好適応蒸留フレームワークを提案する。
4つの主流アライメントベンチマークの実験では、PADが既存のアプローチよりも一貫して、大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-20T05:18:23Z) - Adversarial Prompt Distillation for Vision-Language Models [61.39214202062028]
Adversarial Prompt Tuning (APT) は、迅速なチューニングの過程において、相手のトレーニングを適用する。
APDは、マルチモーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークである。
複数のベンチマークデータセットに対する大規模な実験は、現在最先端のAPT法よりもAPD法の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-22T03:02:13Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。