論文の概要: FocusLLM: Scaling LLM's Context by Parallel Decoding
- arxiv url: http://arxiv.org/abs/2408.11745v1
- Date: Wed, 21 Aug 2024 16:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:18:16.547838
- Title: FocusLLM: Scaling LLM's Context by Parallel Decoding
- Title(参考訳): FocusLLM:並列デコーディングによるLLMのコンテキストのスケーリング
- Authors: Zhenyu Li, Yike Zhang, Tengyu Pan, Yutao Sun, Zhichao Duan, Junjie Fang, Rong Han, Zixuan Wang, Jianyong Wang,
- Abstract要約: FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。
FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。
ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
- 参考スコア(独自算出の注目度): 16.642675785000176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowering LLMs with the ability to utilize useful information from a long context is crucial for many downstream applications. However, achieving long context lengths with the conventional transformer architecture requires substantial training and inference resources. In this paper, we present FocusLLM, a framework designed to extend the context length of any decoder-only LLM, enabling the model to focus on relevant information from very long sequences. FocusLLM processes long text inputs by dividing them into chunks based on the model's original context length to alleviate the issue of attention distraction. Then, it appends the local context to each chunk as a prompt to extract essential information from each chunk based on a novel parallel decoding mechanism, and ultimately integrates the extracted information into the local context. FocusLLM stands out for great training efficiency and versatility: trained with an 8K input length with much less training cost than previous methods, FocusLLM exhibits superior performance across downstream long-context tasks and maintains strong language modeling ability when handling extensive long texts, even up to 400K tokens. Our code is available at https://github.com/leezythu/FocusLLM.
- Abstract(参考訳): 長いコンテキストから有用な情報を利用する能力を備えたLLMの強化は、多くのダウンストリームアプリケーションにとって不可欠である。
しかし、従来のトランスフォーマーアーキテクチャで長いコンテキスト長を実現するには、かなりのトレーニングと推論資源が必要である。
本論文では,デコーダのみのLLMのコンテキスト長を拡張可能なフレームワークであるFocusLLMを提案する。
FocusLLMは、モデルを本来のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。
そして、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとして各チャンクにローカルコンテキストを付加し、最終的に抽出した情報をローカルコンテキストに統合する。
FocusLLMは、トレーニング効率と汎用性に優れており、トレーニングコストが従来の方法よりもはるかに低い8K入力長でトレーニングされている。
私たちのコードはhttps://github.com/leezythu/FocusLLM.comで利用可能です。
関連論文リスト
- NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [49.43759617227999]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - Make Your LLM Fully Utilize the Context [70.89099306100155]
FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。
FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-25T17:55:14Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - LongHeads: Multi-Head Attention is Secretly a Long Context Processor [49.1661870007655]
LongHeadsは、大規模な言語モデルの長いコンテキスト能力を強化する、トレーニング不要のフレームワークである。
それぞれの頭が全文に参加できるようにする代わりに、各頭がコンテキストチャンクを選択して参加することで、分配長を処理できるようにします。
LongHeadsは、パスキー検索タスクにおいて、128kの長さで100%精度を達成する。
論文 参考訳(メタデータ) (2024-02-16T13:39:34Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。