論文の概要: SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.07711v1
- Date: Fri, 08 May 2026 13:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.066268
- Title: SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation
- Title(参考訳): SimCT: クロスTokenizer on-Policy蒸留のための失われたスーパービジョンを回復
- Authors: Jie Sun, Mao Zheng, Mingyang Song, Qiyong Zhong, Yilin Cheng, Bichuan Feng, Pengfei Liu, Junfeng Fang, Xiang Wang,
- Abstract要約: オンライン蒸留は、教師と学生の予測がトークン単位で同等のトークンであると仮定する。
監視空間を拡大してこの信号を復元するSimCTを提案する。
SimCT は共有語彙 OPD と代表的クロストケナイザベースラインに対して一貫した利得を示す。
- 参考スコア(独自算出の注目度): 39.59759394378816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) is a standard tool for transferring teacher behavior to a smaller student, but it implicitly assumes that teacher and student predictions are comparable token by token, an assumption that fails whenever the two models tokenize the same text differently. Under heterogeneous tokenizers, exact shared-token matching silently discards a large fraction of the teacher signal at precisely the positions where vocabularies disagree. We propose \textbf{\underline{Sim}ple \underline{C}ross-\underline{T}okenizer OPD (SimCT)}, which restores this signal by enlarging the supervision space: alongside shared tokens, SimCT compares teacher and student over short multi-token continuations that both tokenizers can realize, leaving the OPD loss form itself unchanged. We show that these units are the finest jointly tokenizable supervision interface, and that coarser alternatives remove teacher-student distinctions that are useful for on-policy learning. Across three heterogeneous teacher-student pairs on mathematical reasoning and code-generation benchmarks, SimCT shows consistent gains over shared-vocabulary OPD and representative cross-tokenizer baselines, with ablations confirming that the improvements come from recovering supervision discarded by exact shared-token matching. Code is available at \href{https://github.com/sunjie279/SimCT-}{https://github.com/sunjie279/SimCT-}.
- Abstract(参考訳): オンライン蒸留(On-policy distillation、OPD)は、教師の振る舞いを小さな学生に伝達する標準的なツールであるが、教師と学生の予測はトークンによって同等のトークンであると暗黙的に仮定している。
不均一なトークン化装置の下では、正確な共有トークンマッチングは、語彙が一致しない位置にある教師信号の大部分を静かに破棄する。
共有トークンとともに、SimCTは教師と生徒を、両方のトークン化者が認識できる短いマルチトークン継続について比較し、PD損失形式自体が変わらないままにしておく。
これらのユニットは、最も優れた共同トークン化可能な監視インターフェースであり、より粗い代替手段は、オンラインの学習に役立つ教師と生徒の区別を除去することを示します。
数学的推論とコード生成のベンチマークに関する3つの異質な教師と学生のペアの中で、SimCTは共有語彙のOPDと代表的クロストケナイザベースラインに対して一貫した利得を示し、改善は正確な共有トークンマッチングによって破棄された監督の回復によるものであることを確認した。
コードは \href{https://github.com/sunjie279/SimCT-}{https://github.com/sunjie279/SimCT-} で公開されている。
関連論文リスト
- PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization [8.126475706520063]
PairAlignは、シーケンスレベルの自己アライメントによるコンパクトなオーディオトークン化のためのフレームワークである。
広義の語彙を用いたコンパクトで非退化配列を学習する。
編集距離検索を保存し、アーカイブトークン数を55%削減する。
論文 参考訳(メタデータ) (2026-05-07T17:11:22Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z) - LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。
本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。
実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-04T16:19:05Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。
テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。
本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。