論文の概要: YaRN: Efficient Context Window Extension of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.00071v2
- Date: Wed, 1 Nov 2023 17:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:04:04.565876
- Title: YaRN: Efficient Context Window Extension of Large Language Models
- Title(参考訳): yarn: 大きな言語モデルの効率的なコンテキストウィンドウ拡張
- Authors: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
- Abstract要約: RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。
本稿では,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高いYarnを提案する。
LLaMAモデルは,従来の事前学習が許すよりもはるかに長い文脈長を効果的に活用し,外挿することができることを示す。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotary Position Embeddings (RoPE) have been shown to effectively encode
positional information in transformer-based language models. However, these
models fail to generalize past the sequence length they were trained on. We
present YaRN (Yet another RoPE extensioN method), a compute-efficient method to
extend the context window of such models, requiring 10x less tokens and 2.5x
less training steps than previous methods. Using YaRN, we show that LLaMA
models can effectively utilize and extrapolate to context lengths much longer
than their original pre-training would allow, while also surpassing previous
the state-of-the-art at context window extension. In addition, we demonstrate
that YaRN exhibits the capability to extrapolate beyond the limited context of
a fine-tuning dataset. The models fine-tuned using YaRN has been made available
and reproduced online up to 128k context length at
https://github.com/jquesnelle/yarn
- Abstract(参考訳): RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。
しかし、これらのモデルは、訓練したシーケンス長を超過して一般化することができない。
本稿では,Yarn(Yet another RoPE extensioN method)という,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高い手法を提案する。
YaRN を用いて,LLaMA モデルが従来の事前学習よりもはるかに長い文脈長を効果的に活用し,外挿できることを示す。
加えて、YaRNは、微調整データセットの限られたコンテキストを超えて外挿する能力を示す。
YaRNを使用して微調整されたモデルは、https://github.com/jquesnelle/yarnで128kのコンテキスト長までオンラインで公開され、再現されている。
関連論文リスト
- Training-Free Long-Context Scaling of Large Language Models [120.27629784425274]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - "Paraphrasing The Original Text" Makes High Accuracy Long-Context QA [0.0]
長文学習データの有効性を分析し、長文学習には「効果的な」データが必要であることを確認する。
そこで本研究では,データの有効性を高めるために「原文パラフレーズ」を追加することを提案する。
再フィニッシュデータセットでトレーニングされたモデルは、優れたロングコンテキスト能力を得る。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model
From Scratch? [0.0]
我々はLongformerモデルを法的なデータに基づいて効率的なRTDタスクで訓練し、より少ない計算量で効率的なLMを事前学習できることを実証する。
私たちは、小さなモデルとベースモデルの両方が、ドメイン内BillSumとドメイン外タスクのベースラインを上回っていることに気付きました。
論文 参考訳(メタデータ) (2022-11-30T16:09:20Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Do Long-Range Language Models Actually Use Long-Range Context? [27.084888397778823]
言語モデルは一般的に、短絡した入力シーケンスに基づいて訓練される。
近年の自己注意の効率向上に向けた取り組みは、長距離トランスフォーマー言語モデルの普及につながっている。
論文 参考訳(メタデータ) (2021-09-19T12:49:43Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。