Fugu-MT 論文翻訳(概要): YaRN: Efficient Context Window Extension of Large Language Models

論文の概要: YaRN: Efficient Context Window Extension of Large Language Models

arxiv url: http://arxiv.org/abs/2309.00071v2
Date: Wed, 1 Nov 2023 17:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 17:04:04.565876
Title: YaRN: Efficient Context Window Extension of Large Language Models
Title（参考訳）: yarn: 大きな言語モデルの効率的なコンテキストウィンドウ拡張
Authors: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
Abstract要約: RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。本稿では,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高いYarnを提案する。 LLaMAモデルは,従来の事前学習が許すよりもはるかに長い文脈長を効果的に活用し,外挿することができることを示す。
参考スコア（独自算出の注目度）: 1.024113475677323
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn
Abstract（参考訳）: RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。しかし、これらのモデルは、訓練したシーケンス長を超過して一般化することができない。本稿では,Yarn(Yet another RoPE extensioN method)という,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高い手法を提案する。 YaRN を用いて,LLaMA モデルが従来の事前学習よりもはるかに長い文脈長を効果的に活用し,外挿できることを示す。加えて、YaRNは、微調整データセットの限られたコンテキストを超えて外挿する能力を示す。 YaRNを使用して微調整されたモデルは、https://github.com/jquesnelle/yarnで128kのコンテキスト長までオンラインで公開され、再現されている。

関連論文リスト

Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳（メタデータ） (2025-05-29T17:50:34Z)
Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-31T13:47:10Z)
LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文参考訳（メタデータ） (2024-04-18T11:29:23Z)
Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-27T12:39:23Z)
Long-Context Language Modeling with Parallel Context Encoding [37.64884969997378]
既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。 CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。 CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
論文参考訳（メタデータ） (2024-02-26T14:47:35Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model From Scratch? [0.0]
我々はLongformerモデルを法的なデータに基づいて効率的なRTDタスクで訓練し、より少ない計算量で効率的なLMを事前学習できることを実証する。私たちは、小さなモデルとベースモデルの両方が、ドメイン内BillSumとドメイン外タスクのベースラインを上回っていることに気付きました。
論文参考訳（メタデータ） (2022-11-30T16:09:20Z)
ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。 3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-24T14:46:47Z)
Do Long-Range Language Models Actually Use Long-Range Context? [27.084888397778823]
言語モデルは一般的に、短絡した入力シーケンスに基づいて訓練される。近年の自己注意の効率向上に向けた取り組みは、長距離トランスフォーマー言語モデルの普及につながっている。
論文参考訳（メタデータ） (2021-09-19T12:49:43Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。