論文の概要: Extending Context Window of Large Language Models via Positional
Interpolation
- arxiv url: http://arxiv.org/abs/2306.15595v2
- Date: Wed, 28 Jun 2023 04:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 11:12:50.920510
- Title: Extending Context Window of Large Language Models via Positional
Interpolation
- Title(参考訳): 位置補間による大規模言語モデルのコンテキストウィンドウの拡張
- Authors: Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian
- Abstract要約: 我々は,RoPEをベースとした事前学習LLMのコンテキストウィンドウサイズを,最小限の微調整(1000ステップ以内)で最大32768まで拡張する位置補間法を提案する。
パスキー検索,言語モデリング,LLaMA 7B から 65B までの長い文書要約など,長いコンテキストを必要とするタスクに対して,強い経験的結果を示す。
- 参考スコア(独自算出の注目度): 26.076599895589098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Position Interpolation (PI) that extends the context window sizes
of RoPE-based pretrained LLMs such as LLaMA models to up to 32768 with minimal
fine-tuning (within 1000 steps), while demonstrating strong empirical results
on various tasks that require long context, including passkey retrieval,
language modeling, and long document summarization from LLaMA 7B to 65B.
Meanwhile, the extended model by Position Interpolation preserve quality
relatively well on tasks within its original context window. To achieve this
goal, Position Interpolation linearly down-scales the input position indices to
match the original context window size, rather than extrapolating beyond the
trained context length which may lead to catastrophically high attention scores
that completely ruin the self-attention mechanism. Our theoretical study shows
that the upper bound of interpolation is at least $\sim 600 \times$ smaller
than that of extrapolation, further demonstrating its stability. Models
extended via Position Interpolation retain its original architecture and can
reuse most pre-existing optimization and infrastructure.
- Abstract(参考訳): LLaMAモデルのようなRoPEベースで事前訓練されたLLMのコンテキストウィンドウサイズを、最小限の微調整(1000ステップ以内)で最大32768まで拡張し、パスキー検索、言語モデリング、LLaMA 7Bから65Bまでの長い文書要約などの長いコンテキストを必要とするタスクに対して強力な実験結果を示す。
一方、位置補間による拡張モデルは、元のコンテキストウィンドウ内のタスクの質を比較的よく保っている。
この目的を達成するために、位置補間は入力位置指標を線形にダウンスケールし、トレーニングされたコンテキスト長を超えて外挿するのではなく、自己保持機構を完全に破壊する破滅的な高い注意スコアを与える。
我々の理論的研究は、補間上限が少なくとも$\sim 600 \times$は外挿限界よりも小さいことを示し、その安定性を示している。
位置補間によって拡張されたモデルは元のアーキテクチャを維持し、既存の最適化とインフラを再利用することができる。
関連論文リスト
- Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - Extending Context Window of Large Language Models from a Distributional Perspective [29.313701168816507]
本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。
本稿では,回転角分布の乱れを最小限に抑える新しい拡張戦略を提案する。
提案手法は,既存の最先端手法よりも平均4.33%向上する。
論文 参考訳(メタデータ) (2024-10-02T12:40:11Z) - Exploring Context Window of Large Language Models via Decomposed Positional Vectors [107.19556541244654]
トランスフォーマーベースの大規模言語モデル(LLM)は通常、限られたコンテキストウィンドウを持つ。
本研究では,コンテキストウィンドウ内外の位置情報について検討する。
論文 参考訳(メタデータ) (2024-05-28T09:50:46Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [7.833740464264734]
現在の拡張コンテキストウィンドウは約128kトークンに制限されている。
LongRoPEは、事前訓練されたLLMのコンテキストウィンドウを2048kトークンに拡張する。
論文 参考訳(メタデータ) (2024-02-21T12:30:33Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Local Context Attention for Salient Object Segmentation [5.542044768017415]
本研究では,一様表現型アーキテクチャで局所強化特徴写像を生成するための新しいローカルコンテキスト注意ネットワーク(LCANet)を提案する。
提案するネットワークでは,粗い予測と大域的コンテキストの間の相関特徴写像を計算し,アテンショナル・コリレーション・フィルタ (ACF) モジュールを導入している。
いくつかの有能なオブジェクトセグメンテーションデータセットに対して総合的な実験を行い、提案したLCANetの最先端手法に対する優れた性能を実証した。
論文 参考訳(メタデータ) (2020-09-24T09:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。