論文の概要: AweDist: Attention-aware Embedding Distillation for New Input Token Embeddings
- arxiv url: http://arxiv.org/abs/2505.20133v1
- Date: Mon, 26 May 2025 15:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.573954
- Title: AweDist: Attention-aware Embedding Distillation for New Input Token Embeddings
- Title(参考訳): AweDist:新しい入力トークン埋め込みのための留意意識の埋め込み
- Authors: Konstantin Dobler, Desmond Elliott, Gerard de Melo,
- Abstract要約: 現在の言語モデルは、事前学習時に決定される静的語彙に依存している。
我々はAweDistを提案し、元のトークン化を用いて得られた表現を蒸留することにより、新しいトークンに対する高品質な入力埋め込みを迅速に学習できることを示す。
幅広いオープンウェイトモデルによる実験結果は、AweDistがさらに強力なベースラインを上回り得ることを示している。
- 参考スコア(独自算出の注目度): 32.1340552899991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current language models rely on static vocabularies determined at pretraining time, which can lead to decreased performance and increased computational cost for domains underrepresented in the original vocabulary. New tokens can be added to solve this problem, when coupled with a good initialization for their new embeddings. However, existing embedding initialization methods either require expensive further training or pretraining of additional modules. In this paper, we propose AweDist and show that by distilling representations obtained using the original tokenization, we can quickly learn high-quality input embeddings for new tokens. Experimental results with a wide range of open-weight models show that AweDist is able to outperform even strong baselines.
- Abstract(参考訳): 現在の言語モデルは、事前学習時に決定される静的語彙に依存しており、元の語彙で表現されていないドメインのパフォーマンスが低下し、計算コストが増大する可能性がある。
この新しい埋め込みの優れた初期化と組み合わせることで、この問題を解決するために新しいトークンを追加することができる。
しかし、既存の埋め込み初期化法は、高価な追加の訓練や追加モジュールの事前訓練を必要とする。
本稿では、AweDistを提案し、元のトークン化を用いて得られた表現を蒸留することにより、新しいトークンに対する高品質な入力埋め込みを迅速に学習できることを示す。
幅広いオープンウェイトモデルによる実験結果は、AweDistがさらに強力なベースラインを上回り得ることを示している。
関連論文リスト
- Retrieval Backward Attention without Additional Training: Enhance Embeddings of Large Language Models via Repetition [4.249842620609683]
本稿では,ゼロショット設定における事前学習言語モデルの性能向上に焦点をあてる。
本稿では,コンテキスト情報エンコーディングを強化するための新しい下位アテンション機構を提案する。
論文 参考訳(メタデータ) (2025-02-28T05:19:18Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models
Robust with Little Cost [5.672132510411465]
最先端のNLPシステムは、単語埋め込みを伴う入力を表すが、外語彙の単語に直面すると、これらは不安定である。
我々は,単語の表面形のみを用いて事前学習した埋め込みの挙動を学習することにより,未知語に対するベクトルを生成するための模倣様モデルの原理に従う。
本稿では,既存の事前学習型言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:11:07Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。