論文の概要: Perturbation is All You Need for Extrapolating Language Models
- arxiv url: http://arxiv.org/abs/2605.04344v1
- Date: Tue, 05 May 2026 23:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.572057
- Title: Perturbation is All You Need for Extrapolating Language Models
- Title(参考訳): 言語モデル外挿に必要な摂動
- Authors: Zetai Cen, Jin Zhu, Xinwei Shen, Chengchun Shi,
- Abstract要約: 大規模言語モデルをトレーニングするためのシンプルな、しかし強力なフレームワークを紹介します。
我々は、厳密な外挿可能性の理論、すなわち、信頼性のある予測を行うためのモデルクラスの能力を開発する。
提案手法は,競争力のあるサポート性能を維持しつつ,サポート外予測を継続的に改善することを示す。
- 参考スコア(独自算出の注目度): 10.671612115533597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a simple yet powerful framework for training large language models. In contrast to the standard autoregressive next-token prediction based on an exact prefix, we propose a perturbation-based procedure that first transforms the prefix into a semantic neighbor and then conditions on this perturbed variant for next-token prediction. This yields a hierarchical model with a pre-post-additive noise structure. Within this framework, we develop a rigorous theory of extrapolability, namely, the capacity of a model class to make reliable predictions for token sequences that lie outside the empirical support of the training corpus. We evaluate the finite-sample performance of the proposed procedure using both synthetic and real-world language data. Results show that the proposed method consistently improves out-of-support prediction while maintaining competitive in-support performance, demonstrating that perturbation offers a practical route to language modeling.
- Abstract(参考訳): 大規模言語モデルをトレーニングするためのシンプルな、しかし強力なフレームワークを紹介します。
正規の自己回帰的次トーケン予測とは対照的に,まずそのプレフィックスをセマンティックな隣人に変換し,次に次トーケン予測のためにこの摂動変動の条件を提示する摂動に基づく手順を提案する。
これにより、事前付加的な雑音構造を持つ階層モデルが得られる。
この枠組み内では、厳密な補間可能性の理論、すなわち、トレーニングコーパスの実証的支持外にあるトークンシーケンスの信頼性の高い予測を行うためのモデルクラスのキャパシティを開発する。
合成および実世界の言語データを用いて,提案手法の有限サンプル性能を評価する。
その結果,提案手法は,競争力のあるサポート性能を維持しつつ,サポート外予測を継続的に改善し,摂動が言語モデリングへの実践的経路を提供することを示した。
関連論文リスト
- Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Token-wise Decomposition of Autoregressive Language Model Hidden States
for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。
次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文 参考訳(メタデータ) (2023-05-17T23:55:32Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Probing for Incremental Parse States in Autoregressive Language Models [9.166953511173903]
自己回帰型ニューラルネットワークモデルからの次の単語予測は、構文に対する顕著な感度を示す。
この研究は、漸進的な構文構造の暗黙的な表現を維持する学習能力の結果として、この振る舞いが生じる範囲を評価する。
論文 参考訳(メタデータ) (2022-11-17T18:15:31Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。