論文の概要: Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
- arxiv url: http://arxiv.org/abs/2503.19123v1
- Date: Mon, 24 Mar 2025 20:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:20.130999
- Title: Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
- Title(参考訳): ボキャブラリミスマッチの克服--ボキャブラリに依存しない教師による言語モデリング
- Authors: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong,
- Abstract要約: Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM)は、語彙ミスマッチによるギャップを2つの重要な方法で埋める新しいアプローチである。
異なる語彙を持つ7B教師モデルを用いた1B学生モデルを用いた言語モデルの有効性を示す。
- 参考スコア(独自算出の注目度): 25.929055769748853
- License:
- Abstract: Using large teacher models to guide the training of smaller student models has become the prevailing paradigm for efficient and effective learning. However, vocabulary mismatches between teacher and student language models pose significant challenges in language modeling, resulting in divergent token sequences and output distributions. To overcome these limitations, we propose Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel approach that bridges the gap caused by vocabulary mismatch through two key methods: (1) Token-level Lexical Alignment, which aligns token sequences across mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss of teacher model to guide effective student training. We demonstrate its effectiveness in language modeling with 1B student model using various 7B teacher models with different vocabularies. Notably, with Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM consistently benefits from stronger teacher models, providing a robust solution to vocabulary mismatches in language modeling.
- Abstract(参考訳): 大規模な教師モデルを用いて、より小さな学生モデルの訓練を指導することが、効率的かつ効果的な学習のパラダイムとして広く採用されている。
しかし、教師と学生の言語モデル間の語彙ミスマッチは、言語モデリングにおいて重大な課題を引き起こし、異なるトークンシーケンスと出力分布をもたらす。
このような制約を克服するために,(1) 不正な語彙間でトークン配列を整列するトークンレベルの語彙アライメント,(2) 効果的な学生訓練を指導するために教師モデルが失われたことを活用する教師ガイドド・ロスという,語彙ミスマッチによるギャップを橋渡しする新しい手法である,語彙非依存型教師指導言語モデリング(VocAgnoLM)を提案する。
異なる語彙を持つ7B教師モデルを用いた1B学生モデルを用いた言語モデルの有効性を示す。
特に、Qwen2.5-Math-Instructでは、語彙の約6%をTinyLlamaと共有する教師モデルで、VocAgnoLMは、単純で連続的な事前訓練に比べて46%のパフォーマンス向上を実現している。
さらに、VocAgnoLMは、より強力な教師モデルから一貫して恩恵を受けており、言語モデリングにおける語彙ミスマッチに対する堅牢な解決策を提供する。
関連論文リスト
- A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。
我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。
我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文 参考訳(メタデータ) (2025-02-09T13:15:59Z) - Prune or Retrain: Optimizing the Vocabulary of Multilingual Models for Estonian [0.19116784879310028]
エストニア語に適合するように多言語エンコーダモデルの語彙を変更すると、その下流のパフォーマンスに影響を及ぼす。
本稿では,2つの語彙適応手法の有効性を評価する。
論文 参考訳(メタデータ) (2025-01-05T19:21:45Z) - Babysit A Language Model From Scratch: Interactive Language Learning by Trials and Demonstrations [15.394018604836774]
本稿では, 学生の試行, 教師のデモンストレーション, 言語能力に配慮した報酬の3つの要素を組み込んだTnD学習フレームワークを提案する。
実験の結果,TnD手法は等数あるいは少人数の学生モデルの単語獲得を促進させることがわかった。
この結果から,対話型言語学習は,教師による実演や学生の試行を通じて,言語モデルにおける効率的な単語学習を促進することが示唆された。
論文 参考訳(メタデータ) (2024-05-22T16:57:02Z) - Learning to Diversify Neural Text Generation via Degenerative Model [39.961572541752005]
本稿では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。
まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングします。
次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。
論文 参考訳(メタデータ) (2023-09-22T04:57:10Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - Improving Multilingual Models with Language-Clustered Vocabularies [8.587129426070979]
本稿では,複数の自動派生言語クラスタの別々に訓練された語彙を組み合わせた多言語語彙生成のための新しい手法を提案する。
我々の実験は、主要なマルチ言語ベンチマークタスクにおける言語間の改善を示す。
論文 参考訳(メタデータ) (2020-10-24T04:49:15Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z) - A Discriminative Latent-Variable Model for Bilingual Lexicon Induction [100.76471407472599]
本稿では,バイリンガルレキシコン誘導のための新しい識別潜在変数モデルを提案する。
我々のモデルは、Haghighi et al. (2008) 以前の二部語マッチング辞書と表現に基づくアプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2018-08-28T14:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。