論文の概要: Language Modeling with Learned Meta-Tokens
- arxiv url: http://arxiv.org/abs/2509.16278v1
- Date: Thu, 18 Sep 2025 17:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.718887
- Title: Language Modeling with Learned Meta-Tokens
- Title(参考訳): メタトークンの学習による言語モデリング
- Authors: Alok N. Shah, Khush Gupta, Keshav Ramji, Pratik Chaudhari,
- Abstract要約: この研究は、メタトークンを使った新しいアプローチ、事前トレーニング中に注入された特別なトークン、およびこれらのトークンを使用するためのLMをガイドする専用のメタアテンションメカニズムを導入している。
メタトークンを利用した100B未満のトークンで事前学習したデータ効率の言語モデルは、微調整後、これらのタスクに対して高い性能を実現する。
- 参考スコア(独自算出の注目度): 15.860245999620409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While modern Transformer-based language models (LMs) have achieved major success in multi-task generalization, they often struggle to capture long-range dependencies within their context window. This work introduces a novel approach using meta-tokens, special tokens injected during pre-training, along with a dedicated meta-attention mechanism to guide LMs to use these tokens. We pre-train a language model with a modified GPT-2 architecture equipped with meta-attention in addition to causal multi-head attention, and study the impact of these tokens on a suite of synthetic tasks. We find that data-efficient language model pre-training on fewer than 100B tokens utilizing meta-tokens and our meta-attention mechanism achieves strong performance on these tasks after fine-tuning. We suggest that these gains arise due to the meta-tokens sharpening the positional encoding. This enables them to operate as trainable, content-based landmarks, implicitly compressing preceding context and "caching" it in the meta-token. At inference-time, the meta-token points to relevant context, facilitating length generalization up to 2$\times$ its context window, even after extension with YaRN. We provide further evidence of these behaviors by visualizing model internals to study the residual stream, and assessing the compression quality by information-theoretic analysis on the rate-distortion tradeoff. Our findings suggest that pre-training LMs with meta-tokens offers a simple, data-efficient method to enhance long-context language modeling performance, while introducing new insights into the nature of their behavior towards length generalization.
- Abstract(参考訳): 現代のトランスフォーマーベースの言語モデル(LM)はマルチタスクの一般化において大きな成功を収めてきたが、コンテキストウィンドウ内での長距離依存を捉えるのにしばしば苦労している。
この研究は、メタトークンを使った新しいアプローチ、事前トレーニング中に注入された特別なトークン、およびこれらのトークンを使用するためのLMをガイドする専用のメタアテンションメカニズムを導入している。
本稿では,メタアテンションを備えた改良型GPT-2アーキテクチャを用いた言語モデルの事前学習を行い,それらのトークンが一連の合成タスクに与える影響について検討する。
メタトークンを利用した100B未満のトークン上で,データ効率のよい言語モデルが事前学習されていることが判明した。
これらの利点は, 位置エンコーディングの高度化によるものであることが示唆された。
これにより、トレーニング可能なコンテンツベースのランドマークとして動作し、事前コンテキストを暗黙的に圧縮し、メタトークンで“キャッシュ”することができる。
推論時には、メタトークンは関連するコンテキストを指し、YaRNの拡張後も、長さの一般化を最大2$\times$そのコンテキストウィンドウに促す。
モデル内部を可視化して残差ストリームを解析し、速度歪みトレードオフに関する情報理論解析により圧縮品質を評価することにより、これらの挙動のさらなる証拠を提供する。
メタトークンを用いた事前学習型LMは、長文言語モデリング性能を向上させる上で、単純でデータ効率のよい手法であり、また、長文一般化に向けた振る舞いに関する新たな洞察をもたらすことを示唆している。
関連論文リスト
- Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Enhancing Character-Level Understanding in LLMs through Token Internal Structure Learning [20.801571525710834]
Token Internal Position Awareness (TIPA) は、トークン内の文字位置をキャプチャするモデルの能力を大幅に改善する手法である。
TIPAは、大きな言語モデルにおける位置予測精度を高め、元のテキストにおけるターゲット文字のより正確な識別を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:44:39Z) - Context-Aware Meta-Learning [52.09326317432577]
本研究では,大規模言語モデルのエミュレートを行うメタ学習アルゴリズムを提案する。
我々のアプローチは、11のメタラーニングベンチマークのうち8つで最先端のアルゴリズムであるP>M>Fを上回り、一致します。
論文 参考訳(メタデータ) (2023-10-17T03:35:27Z) - Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models [8.166629393064097]
トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
論文 参考訳(メタデータ) (2022-08-24T11:25:27Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Self-Supervised Meta-Learning for Few-Shot Natural Language
Classification Tasks [40.97125791174191]
ラベルのないテキストから大規模でリッチなメタ学習タスク分布を生成するための自己教師型手法を提案する。
このメタトレーニングは、言語モデル事前学習の後に微調整を行うよりも、数ショットの一般化に繋がることを示す。
論文 参考訳(メタデータ) (2020-09-17T17:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。