論文の概要: LongSSM: On the Length Extension of State-space Models in Language Modelling
- arxiv url: http://arxiv.org/abs/2406.02080v1
- Date: Tue, 4 Jun 2024 08:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:21:12.752735
- Title: LongSSM: On the Length Extension of State-space Models in Language Modelling
- Title(参考訳): LongSSM:言語モデリングにおける状態空間モデルの長大拡張について
- Authors: Shida Wang,
- Abstract要約: 隠れた状態がゼロで訓練された状態空間モデルでは長さ拡張が困難であることを示す。
そこで本研究では,長さ拡張を改善するために,隠れ状態を変更する,シンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the length-extension of state-space models (SSMs) in language modeling. Length extension involves training models on short sequences and testing them on longer ones. We show that state-space models trained with zero hidden states initialization have difficulty doing length extension. We explain this difficulty by pointing out the length extension is equivalent to polynomial extrapolation. Based on the theory, we propose a simple yet effective method - changing the hidden states initialization scheme - to improve the length extension. Moreover, our method shows that using long training sequence length is beneficial but not necessary to length extension. Changing the hidden state initialization enables the efficient training of long-memory model with a smaller training context length.
- Abstract(参考訳): 本稿では,言語モデルにおける状態空間モデル(SSM)の長さ拡張について検討する。
長さ拡張には、短いシーケンスでのトレーニングモデルと、より長いシーケンスでのテストが含まれる。
ゼロ隠れ状態の初期化を訓練した状態空間モデルでは長さ拡張が困難であることを示す。
長さ拡張が多項式外挿に等しいことを指摘して、この難しさを説明する。
この理論に基づいて,隠れ状態の初期化スキームを変更して長さ拡張を改善するという,シンプルで効果的な手法を提案する。
さらに, 長いトレーニングシーケンス長を用いることは有用であるが, 延長には必要ではないことを示す。
隠れた状態の初期化を変更することで、トレーニングコンテキストの長さが小さいロングメモリモデルの効率的なトレーニングが可能になる。
関連論文リスト
- MemLong: Memory-Augmented Retrieval for Long Text Modeling [37.49036666949963]
この研究はMemLong: Memory-Augmented Retrieval for Long Text Generationを紹介します。
MemLongは、非微分可能なret-mem'モジュールと部分的にトレーニング可能なデコーダのみの言語モデルを組み合わせる。
複数の長文言語モデリングベンチマークに関する総合的な評価は、MemLongが他の最先端のLLMよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-08-30T02:01:56Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - InstructCMP: Length Control in Sentence Compression through Instruction-based Large Language Models [27.26285945442178]
InstructCMPは文圧縮タスクへのアプローチであり、命令によって長さ制約を考慮できる。
長さプライミングを適用することで、ゼロショット設定と微調整設定の両方において、インストラクトCMPの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-16T23:00:47Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Extending Input Contexts of Language Models through Training on Segmented Sequences [34.42433279419559]
本研究では,事前学習したモデルの入力コンテキストサイズをアーキテクチャ変更なしに拡張する訓練手法を開発した。
提案手法は,パープレキシティを改善しつつ,入力コンテキストを4倍に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-10-23T07:13:31Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。