論文の概要: Extending Context Window of Large Language Models via Positional
Interpolation
- arxiv url: http://arxiv.org/abs/2306.15595v2
- Date: Wed, 28 Jun 2023 04:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 11:12:50.920510
- Title: Extending Context Window of Large Language Models via Positional
Interpolation
- Title(参考訳): 位置補間による大規模言語モデルのコンテキストウィンドウの拡張
- Authors: Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian
- Abstract要約: 我々は,RoPEをベースとした事前学習LLMのコンテキストウィンドウサイズを,最小限の微調整(1000ステップ以内)で最大32768まで拡張する位置補間法を提案する。
パスキー検索,言語モデリング,LLaMA 7B から 65B までの長い文書要約など,長いコンテキストを必要とするタスクに対して,強い経験的結果を示す。
- 参考スコア(独自算出の注目度): 26.076599895589098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Position Interpolation (PI) that extends the context window sizes
of RoPE-based pretrained LLMs such as LLaMA models to up to 32768 with minimal
fine-tuning (within 1000 steps), while demonstrating strong empirical results
on various tasks that require long context, including passkey retrieval,
language modeling, and long document summarization from LLaMA 7B to 65B.
Meanwhile, the extended model by Position Interpolation preserve quality
relatively well on tasks within its original context window. To achieve this
goal, Position Interpolation linearly down-scales the input position indices to
match the original context window size, rather than extrapolating beyond the
trained context length which may lead to catastrophically high attention scores
that completely ruin the self-attention mechanism. Our theoretical study shows
that the upper bound of interpolation is at least $\sim 600 \times$ smaller
than that of extrapolation, further demonstrating its stability. Models
extended via Position Interpolation retain its original architecture and can
reuse most pre-existing optimization and infrastructure.
- Abstract(参考訳): LLaMAモデルのようなRoPEベースで事前訓練されたLLMのコンテキストウィンドウサイズを、最小限の微調整(1000ステップ以内)で最大32768まで拡張し、パスキー検索、言語モデリング、LLaMA 7Bから65Bまでの長い文書要約などの長いコンテキストを必要とするタスクに対して強力な実験結果を示す。
一方、位置補間による拡張モデルは、元のコンテキストウィンドウ内のタスクの質を比較的よく保っている。
この目的を達成するために、位置補間は入力位置指標を線形にダウンスケールし、トレーニングされたコンテキスト長を超えて外挿するのではなく、自己保持機構を完全に破壊する破滅的な高い注意スコアを与える。
我々の理論的研究は、補間上限が少なくとも$\sim 600 \times$は外挿限界よりも小さいことを示し、その安定性を示している。
位置補間によって拡張されたモデルは元のアーキテクチャを維持し、既存の最適化とインフラを再利用することができる。
関連論文リスト
- Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [7.833740464264734]
現在の拡張コンテキストウィンドウは約128kトークンに制限されている。
LongRoPEは、事前訓練されたLLMのコンテキストウィンドウを2048kトークンに拡張する。
論文 参考訳(メタデータ) (2024-02-21T12:30:33Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Local Context Attention for Salient Object Segmentation [5.542044768017415]
本研究では,一様表現型アーキテクチャで局所強化特徴写像を生成するための新しいローカルコンテキスト注意ネットワーク(LCANet)を提案する。
提案するネットワークでは,粗い予測と大域的コンテキストの間の相関特徴写像を計算し,アテンショナル・コリレーション・フィルタ (ACF) モジュールを導入している。
いくつかの有能なオブジェクトセグメンテーションデータセットに対して総合的な実験を行い、提案したLCANetの最先端手法に対する優れた性能を実証した。
論文 参考訳(メタデータ) (2020-09-24T09:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。