論文の概要: LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation
- arxiv url: http://arxiv.org/abs/2502.07365v1
- Date: Tue, 11 Feb 2025 08:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:48.069521
- Title: LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation
- Title(参考訳): LongReD: 修復蒸留による長期大言語モデルの短文劣化の軽減
- Authors: Zican Dong, Junyi Li, Jinhao Jiang, Mingyu Xu, Wayne Xin Zhao, Bingning Wang, Weipeng Chen,
- Abstract要約: 回復蒸留(LongReD)による長期事前トレーニング
LongReDは、選択されたレイヤの隠れた状態をオリジナルのモデルから短いテキストで蒸留する。
一般的なテキストベンチマークの実験では、LongReDはモデルの短文性能を効果的に維持することを示した。
- 参考スコア(独自算出の注目度): 79.90766312484489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have gained extended context windows through scaling positional encodings and lightweight continual pre-training. However, this often leads to degraded performance on short-text tasks, while the reasons for this degradation remain insufficiently explored. In this work, we identify two primary factors contributing to this issue: distribution drift in hidden states and attention scores, and catastrophic forgetting during continual pre-training. To address these challenges, we propose Long Context Pre-training with Restoration Distillation (LongReD), a novel approach designed to mitigate short-text performance degradation through minimizing the distribution discrepancy between the extended and original models. Besides training on long texts, LongReD distills the hidden state of selected layers from the original model on short texts. Additionally, LongReD also introduces a short-to-long distillation, aligning the output distribution on short texts with that on long texts by leveraging skipped positional indices. Experiments on common text benchmarks demonstrate that LongReD effectively preserves the model's short-text performance while maintaining comparable or even better capacity to handle long texts than baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、位置エンコーディングのスケーリングと軽量な継続事前トレーニングによって拡張されたコンテキストウィンドウを得た。
しかし、これはしばしば短文タスクの性能低下につながるが、この劣化の理由はいまだに十分に調査されていない。
本研究では,本問題に寄与する主な要因として,隠蔽状態における分布ドリフトと注意点,および連続事前学習時の破滅的な忘れ込みの2つを同定する。
これらの課題に対処するために,拡張モデルとオリジナルモデルとの分布差を最小限に抑え,短文性能劣化を緩和する新しい手法であるLongReD(Long Context Pre-training with Restoration Distillation)を提案する。
長いテキストのトレーニングに加えて、LongReDは選択したレイヤの隠れた状態をオリジナルのモデルから短いテキストで抽出する。
さらに、LongReDは短くて長い蒸留を導入し、スキップされた位置指標を利用して短いテキストの出力分布と長いテキストの出力分布を一致させる。
一般的なテキストベンチマークの実験では、LongReDはモデル短文のパフォーマンスを効果的に保ちながら、ベースラインよりも長いテキストを扱う能力を維持している。
関連論文リスト
- Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation [22.0671489874715]
長文生成法は主に短い入力から長文を生成することに集中する。
入力が長くなるにつれて、既存の手法は必然的に「中途半端な」現象に遭遇する。
本研究では,重要で見過ごされているコンテンツを検索し,復元する検索型長文ライター(RAL-Writer)を開発した。
論文 参考訳(メタデータ) (2025-03-10T02:44:36Z) - LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm [21.661578831520963]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
解析の結果,LLMは長文生成における長文要求や情報密度に悩まされていることが明らかとなった。
提案するLongEvalは,直接および計画に基づく生成パラダイムを用いて,長文生成を評価するベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T12:46:36Z) - NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-22T10:01:54Z) - Length-Induced Embedding Collapse in Transformer-based Models [7.127156731612495]
性能劣化は、長文埋め込みが狭い空間に崩壊するLongth Collapseと呼ばれる現象によるものであることが判明した。
この崩壊により、異なるテキスト長の埋め込み間の分散不整合が生じ、下流タスクのパフォーマンスが損なわれる。
本研究では,低フィルタ減衰率の高いソフトマックス()に温度を導入することにより,望ましくない長さの崩壊制限を緩和することを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:55:36Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。
近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。
本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:37:03Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Reinforced Abstractive Summarization with Adaptive Length Controlling [12.793451906532223]
制御可能な要約、特に長さは、いくつかの実用的な応用において重要な問題である。
2段階の抽象的要約モデルを活用するために、textbfAdaptive textbfLength textbfControlling textbfOptimization (textbfALCO)法を提案する。
論文 参考訳(メタデータ) (2021-12-14T16:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。