論文の概要: Long-Short Alignment for Effective Long-Context Modeling in LLMs
- arxiv url: http://arxiv.org/abs/2506.11769v1
- Date: Fri, 13 Jun 2025 13:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.808753
- Title: Long-Short Alignment for Effective Long-Context Modeling in LLMs
- Title(参考訳): LLMにおける有効長コンテキストモデリングのための長短アライメント
- Authors: Tianqi Du, Haotian Huang, Yifei Wang, Yisen Wang,
- Abstract要約: 大きな言語モデル(LLM)は、驚くべきパフォーマンスと驚くべき創発的な特性を示しています。
長さの一般化 -- トレーニング中に見られるものよりも長いシーケンスに一般化する能力 -- は、古典的で基本的な問題である。
textbflong-shortアライメント -- 長さの異なるシーケンス間の出力分布の一貫性 -- の重要な役割を強調します。
- 参考スコア(独自算出の注目度): 32.13785291956956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have exhibited impressive performance and surprising emergent properties. However, their effectiveness remains limited by the fixed context window of the transformer architecture, posing challenges for long-context modeling. Among these challenges, length generalization -- the ability to generalize to sequences longer than those seen during training -- is a classical and fundamental problem. In this work, we propose a fresh perspective on length generalization, shifting the focus from the conventional emphasis on input features such as positional encodings or data structures to the output distribution of the model. Specifically, through case studies on synthetic tasks, we highlight the critical role of \textbf{long-short alignment} -- the consistency of output distributions across sequences of varying lengths. Extending this insight to natural language tasks, we propose a metric called Long-Short Misalignment to quantify this phenomenon, uncovering a strong correlation between the metric and length generalization performance. Building on these findings, we develop a regularization term that promotes long-short alignment during training. Extensive experiments validate the effectiveness of our approach, offering new insights for achieving more effective long-context modeling in LLMs. Code is available at https://github.com/PKU-ML/LongShortAlignment.
- Abstract(参考訳): 大きな言語モデル(LLM)は、驚くべきパフォーマンスと驚くべき創発的な特性を示しています。
しかし、それらの効果はトランスフォーマーアーキテクチャの固定されたコンテキストウィンドウによって制限され、長期コンテキストモデリングの課題を提起している。
これらの課題の中で、長さの一般化(トレーニング中に見られるものよりも長いシーケンスに一般化する能力)は古典的で基本的な問題である。
本研究では,位置エンコーディングやデータ構造といった従来の入力特徴からモデルの出力分布へ焦点を移す,長さ一般化の新しい視点を提案する。
具体的には、合成タスクのケーススタディを通じて、様々な長さの列にまたがる出力分布の整合性である「textbf{long-short alignment}」の重要な役割を強調する。
この知見を自然言語タスクに拡張し、この現象を定量化するためのLong-Short Misalignmentと呼ばれる計量を提案し、計量と長大一般化性能の間に強い相関関係を明らかにする。
これらの知見に基づいて,トレーニング中の長短アライメントを促進する正規化用語を開発した。
広範にわたる実験により,LLMにおけるより効果的な長文モデリングを実現するための新たな知見が得られた。
コードはhttps://github.com/PKU-ML/LongShortAlignmentで入手できる。
関連論文リスト
- Breaking the Context Bottleneck on Long Time Series Forecasting [6.36010639533526]
長期の時系列予測は、経済、エネルギー、輸送における計画と意思決定に不可欠である。
最近の進歩によりこれらのモデルの効率は向上したが、より長いシーケンスを効果的に活用することの難しさは持続している。
長いシーケンスの効率的かつ効率的な処理を実現するために,Logsparse Decomposable Multiscaling (LDM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T10:29:34Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Simple Local Attentions Remain Competitive for Long-Context Tasks [32.785459927278616]
多くのNLPタスクは、事前訓練されたモデルの長さ制限を超える長いコンテキストを処理する必要がある。
これらのモデルをより長いテキストシーケンスにスケールするために、多くの効率的な長距離アテンション変種が提案されている。
各注意変種について、同一の長docコーパスを用いて大規模モデルを事前訓練し、それらのモデルを現実世界の長コンテキストタスクのために微調整する。
論文 参考訳(メタデータ) (2021-12-14T07:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。