論文の概要: AweDist: Attention-aware Embedding Distillation for New Input Token Embeddings
- arxiv url: http://arxiv.org/abs/2505.20133v1
- Date: Mon, 26 May 2025 15:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.573954
- Title: AweDist: Attention-aware Embedding Distillation for New Input Token Embeddings
- Title(参考訳): AweDist:新しい入力トークン埋め込みのための留意意識の埋め込み
- Authors: Konstantin Dobler, Desmond Elliott, Gerard de Melo,
- Abstract要約: 現在の言語モデルは、事前学習時に決定される静的語彙に依存している。
我々はAweDistを提案し、元のトークン化を用いて得られた表現を蒸留することにより、新しいトークンに対する高品質な入力埋め込みを迅速に学習できることを示す。
幅広いオープンウェイトモデルによる実験結果は、AweDistがさらに強力なベースラインを上回り得ることを示している。
- 参考スコア(独自算出の注目度): 32.1340552899991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current language models rely on static vocabularies determined at pretraining time, which can lead to decreased performance and increased computational cost for domains underrepresented in the original vocabulary. New tokens can be added to solve this problem, when coupled with a good initialization for their new embeddings. However, existing embedding initialization methods either require expensive further training or pretraining of additional modules. In this paper, we propose AweDist and show that by distilling representations obtained using the original tokenization, we can quickly learn high-quality input embeddings for new tokens. Experimental results with a wide range of open-weight models show that AweDist is able to outperform even strong baselines.
- Abstract(参考訳): 現在の言語モデルは、事前学習時に決定される静的語彙に依存しており、元の語彙で表現されていないドメインのパフォーマンスが低下し、計算コストが増大する可能性がある。
この新しい埋め込みの優れた初期化と組み合わせることで、この問題を解決するために新しいトークンを追加することができる。
しかし、既存の埋め込み初期化法は、高価な追加の訓練や追加モジュールの事前訓練を必要とする。
本稿では、AweDistを提案し、元のトークン化を用いて得られた表現を蒸留することにより、新しいトークンに対する高品質な入力埋め込みを迅速に学習できることを示す。
幅広いオープンウェイトモデルによる実験結果は、AweDistがさらに強力なベースラインを上回り得ることを示している。
関連論文リスト
- Textual Inversion for Efficient Adaptation of Open-Vocabulary Object Detectors Without Forgetting [1.1871535995163365]
Textual Inversion (TI)は、VLM語彙を拡張して、新しいトークンを学習したり、既存のトークンを改善したりすることで、新しいオブジェクトやきめ細かいオブジェクトを、わずか3つの例から正確に検出することができる。
記憶と勾配の計算はトークンの埋め込み次元に限られており、フルモデルの微調整よりも大幅に少ない計算を必要とする。
本手法が,様々な量的,定性的実験において,忘れることに苦しむベースライン手法に適合するか否かを評価する。
論文 参考訳(メタデータ) (2025-08-07T12:28:08Z) - Vision Transformers Don't Need Trained Registers [17.412430704896455]
疎いニューロンの集合は、外れ値のトークンに高ノルムの活性化を集中させる役割を担っている。
これらのアーティファクトを緩和するために、トレーニング不要のアプローチを作成します。
その結果,テスト時のレジスタは,テスト時のレジスタトークンの役割を効果的に担っていることが示唆された。
論文 参考訳(メタデータ) (2025-06-09T17:59:57Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文 参考訳(メタデータ) (2025-04-21T19:40:32Z) - Retrieval Backward Attention without Additional Training: Enhance Embeddings of Large Language Models via Repetition [4.249842620609683]
本稿では,ゼロショット設定における事前学習言語モデルの性能向上に焦点をあてる。
本稿では,コンテキスト情報エンコーディングを強化するための新しい下位アテンション機構を提案する。
論文 参考訳(メタデータ) (2025-02-28T05:19:18Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models
Robust with Little Cost [5.672132510411465]
最先端のNLPシステムは、単語埋め込みを伴う入力を表すが、外語彙の単語に直面すると、これらは不安定である。
我々は,単語の表面形のみを用いて事前学習した埋め込みの挙動を学習することにより,未知語に対するベクトルを生成するための模倣様モデルの原理に従う。
本稿では,既存の事前学習型言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:11:07Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。