Fugu-MT 論文翻訳(概要): Training-Free Long-Context Scaling of Large Language Models

論文の概要: Training-Free Long-Context Scaling of Large Language Models

arxiv url: http://arxiv.org/abs/2402.17463v1
Date: Tue, 27 Feb 2024 12:39:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:23:12.005121
Title: Training-Free Long-Context Scaling of Large Language Models
Title（参考訳）: 大規模言語モデルの学習自由長期スケーリング
Authors: Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong
Abstract要約: 我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
参考スコア（独自算出の注目度）: 120.27629784425274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability of Large Language Models (LLMs) to process and generate coherent text is markedly weakened when the number of input tokens exceeds their pretraining length. Given the expensive overhead of finetuning large-scale models with longer sequences, we propose Dual Chunk Attention (DCA), which enables Llama2 70B to support context windows of more than 100k tokens without continual training. By decomposing the attention computation for long sequences into chunk-based modules, DCA manages to effectively capture the relative positional information of tokens within the same chunk (Intra-Chunk) and across distinct chunks (Inter-Chunk), as well as integrates seamlessly with Flash Attention. In addition to its impressive extrapolation capability, DCA achieves performance on practical long-context tasks that is comparable to or even better than that of finetuned models. When compared with proprietary models, our training-free 70B model attains 94% of the performance of gpt-3.5-16k, indicating it is a viable open-source alternative. All code and data used in this work are released at \url{https://github.com/HKUNLP/ChunkLlama}.
Abstract（参考訳）: 大規模言語モデル(LLM)によるコヒーレントテキストの処理と生成能力は,入力トークンの数が事前学習期間を超えると著しく低下する。大規模モデルをより長いシーケンスで微調整するコストのかかるオーバーヘッドを考えると、llama2 70bは1万以上のトークンのコンテキストウィンドウを継続的にトレーニングすることなくサポートできるデュアルチャンクアテンション(dca)を提案します。長いシーケンスの注意計算をチャンクベースのモジュールに分解することで、DCAは同じチャンク(Intra-Chunk)と異なるチャンク(Inter-Chunk)内のトークンの相対的な位置情報を効果的にキャプチャし、Flash Attentionとシームレスに統合する。 DCAは、その印象的な補間能力に加えて、微調整されたモデルに匹敵する、あるいはそれ以上に優れた、実用的な長期コンテキストタスクのパフォーマンスを達成する。プロプライエタリモデルと比較すると,トレーニングフリーの70Bモデルでは,gpt-3.5-16kのパフォーマンスの94%を達成しています。この作業で使用されるすべてのコードとデータは、 \url{https://github.com/HKUNLP/ChunkLlama} でリリースされる。

関連論文リスト

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Pause-Tuning for Long-Context Comprehension: A Lightweight Approach to LLM Attention Recalibration [4.7429246847107835]
本稿では,長文入力の理解を深めるために注意を喚起する手法である停止チューニングを導入する。提案手法では,ポーズトークンを人工的に挿入したデータセット上での言語モデルを微調整する。本稿では,Needle-in-a-Haystackベンチマークを用いて,代替手法に対する停止チューニングを評価する。
論文参考訳（メタデータ） (2025-02-01T21:47:15Z)
Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-24T09:25:37Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文参考訳（メタデータ） (2024-09-07T09:28:55Z)
FocusLLM: Scaling LLM's Context by Parallel Decoding [16.642675785000176]
FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。 FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
論文参考訳（メタデータ） (2024-08-21T16:11:59Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-01-31T15:33:37Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。