論文の概要: Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings
- arxiv url: http://arxiv.org/abs/2512.12167v1
- Date: Sat, 13 Dec 2025 04:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.144105
- Title: Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings
- Title(参考訳): 位置埋め込みをドロップすることで, 予め訓練したLLMのコンテキストを延長する
- Authors: Yoav Gelberg, Koshi Eguchi, Takuya Akiba, Edoardo Cetin,
- Abstract要約: トレーニング後のLMの位置埋め込み(DroPE)は、3つの重要な理論的および経験的観察によって動機付けられる。
位置埋め込み(PE)は、事前訓練において重要な役割を担い、重要な誘導バイアスを与える。
DroPEは、長いコンテキストの微調整なしに、シームレスなゼロショットコンテキスト拡張をもたらす。
- 参考スコア(独自算出の注目度): 14.342802193320365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: So far, expensive finetuning beyond the pretraining sequence length has been a requirement for effectively extending the context of language models (LM). In this work, we break this key bottleneck by Dropping the Positional Embeddings of LMs after training (DroPE). Our simple method is motivated by three key theoretical and empirical observations. First, positional embeddings (PEs) serve a crucial role during pretraining, providing an important inductive bias that significantly facilitates convergence. Second, over-reliance on this explicit positional information is also precisely what prevents test-time generalization to sequences of unseen length, even when using popular PE-scaling methods. Third, positional embeddings are not an inherent requirement of effective language modeling and can be safely removed after pretraining, following a short recalibration phase. Empirically, DroPE yields seamless zero-shot context extension without any long-context finetuning, quickly adapting pretrained LMs without compromising their capabilities in the original training context. Our findings hold across different models and dataset sizes, far outperforming previous specialized architectures and established rotary positional embedding scaling methods.
- Abstract(参考訳): これまでのところ、事前訓練シーケンス長を超える高価な微調整は、言語モデル(LM)のコンテキストを効果的に拡張するための要件であった。
本研究では,トレーニング後のLMの位置埋め込み(DroPE)をドロップすることで,この重要なボトルネックを解消する。
我々の単純な手法は、3つの重要な理論的および経験的な観察によって動機付けられている。
第一に、位置埋め込み(PE)は事前訓練において重要な役割を担い、収束を著しく促進する重要な誘導バイアスを提供する。
第二に、この明示的な位置情報に対する過度な依存は、人気のあるPEスケーリング手法を用いても、目立たない長さのシーケンスに対するテストタイムの一般化を妨げている。
第三に、位置埋め込みは効果的な言語モデリングの固有の要件ではなく、短時間の再校正フェーズを経て、事前訓練後に安全に除去することができる。
経験的に、DroPEは、長いコンテキストの微調整なしにシームレスなゼロショットコンテキスト拡張を生成し、訓練済みのLMを、元のトレーニングコンテキストでそれらの能力を損なうことなく迅速に適応させる。
我々の研究は、様々なモデルとデータセットサイズにまたがって、従来の特殊なアーキテクチャよりもはるかに優れており、ロータリな位置埋め込みスケーリング手法が確立されている。
関連論文リスト
- Forward-Only Continual Learning [8.873948519614244]
破滅的な忘れ物は、継続的な学習における中心的な課題である。
本稿では,フォロ(FoRo)を提案する。
実験により、FoRoは平均的な忘れを著しく減らし、精度を向上することが示された。
論文 参考訳(メタデータ) (2025-09-01T15:10:38Z) - Steering Information Utility in Key-Value Memory for Language Model Post-Training [16.655945393684373]
本稿では,ポストトレーニング中の言語モデル(LM)におけるパラメトリック情報利用を促進する軽量な手法であるInfoSteerを紹介する。
この単純なガイダンスは、分散内(ID)とアウト・オブ・ディストリビューション(OOD)の評価において、15のダウンストリームタスクで一貫したパフォーマンス改善をもたらす。
我々の研究は、バニラポストトレーニングが事前トレーニング中に得られる可能性を完全に活用していないこと、そして、潜在表現空間におけるLMの操舵は、性能と解釈可能性の両方を高めるための有望なアプローチであることを示している。
論文 参考訳(メタデータ) (2025-07-07T16:13:21Z) - Long-Tailed Object Detection Pre-training: Dynamic Rebalancing Contrastive Learning with Dual Reconstruction [28.359463356384463]
2DRCL(Dynamic Rebalance Contrastive Learning with Dual Reconstruction)と呼ばれる,オブジェクト検出のための新たな事前学習フレームワークを導入する。
提案手法は,グローバルな文脈意味論と詳細な局所パターンの両方を捉えることによって,事前学習とオブジェクト検出を一致させる,ホロスティック・ローカル・コントラスト学習機構に基づいている。
COCOおよびLVIS v1.0データセットの実験により,本手法の有効性,特に末尾クラスにおけるmAP/APスコアの改善が示された。
論文 参考訳(メタデータ) (2024-11-14T13:59:01Z) - Accelerating Large Language Model Inference with Self-Supervised Early Exits [0.0]
本稿では,大規模・事前学習型言語モデル(LLM)における推論を高速化する新しい手法を提案する。
本稿では,既存の変圧器層上に早期出口「頭部」を統合し,信頼度基準に基づく条件付き項化を容易にすることを提案する。
論文 参考訳(メタデータ) (2024-07-30T07:58:28Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Stable Distillation: Regularizing Continued Pre-training for
Low-Resource Automatic Speech Recognition [54.9235160379917]
安定蒸留はSSLベースの継続事前トレーニングのためのシンプルで斬新なアプローチである。
これにより、ラベル付きデータとラベルなしデータの両方が制限されたターゲットドメインでのASRパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-12-20T06:02:12Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。