論文の概要: FocusLLM: Scaling LLM's Context by Parallel Decoding
- arxiv url: http://arxiv.org/abs/2408.11745v1
- Date: Wed, 21 Aug 2024 16:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:18:16.547838
- Title: FocusLLM: Scaling LLM's Context by Parallel Decoding
- Title(参考訳): FocusLLM:並列デコーディングによるLLMのコンテキストのスケーリング
- Authors: Zhenyu Li, Yike Zhang, Tengyu Pan, Yutao Sun, Zhichao Duan, Junjie Fang, Rong Han, Zixuan Wang, Jianyong Wang,
- Abstract要約: FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。
FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。
ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
- 参考スコア(独自算出の注目度): 16.642675785000176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowering LLMs with the ability to utilize useful information from a long context is crucial for many downstream applications. However, achieving long context lengths with the conventional transformer architecture requires substantial training and inference resources. In this paper, we present FocusLLM, a framework designed to extend the context length of any decoder-only LLM, enabling the model to focus on relevant information from very long sequences. FocusLLM processes long text inputs by dividing them into chunks based on the model's original context length to alleviate the issue of attention distraction. Then, it appends the local context to each chunk as a prompt to extract essential information from each chunk based on a novel parallel decoding mechanism, and ultimately integrates the extracted information into the local context. FocusLLM stands out for great training efficiency and versatility: trained with an 8K input length with much less training cost than previous methods, FocusLLM exhibits superior performance across downstream long-context tasks and maintains strong language modeling ability when handling extensive long texts, even up to 400K tokens. Our code is available at https://github.com/leezythu/FocusLLM.
- Abstract(参考訳): 長いコンテキストから有用な情報を利用する能力を備えたLLMの強化は、多くのダウンストリームアプリケーションにとって不可欠である。
しかし、従来のトランスフォーマーアーキテクチャで長いコンテキスト長を実現するには、かなりのトレーニングと推論資源が必要である。
本論文では,デコーダのみのLLMのコンテキスト長を拡張可能なフレームワークであるFocusLLMを提案する。
FocusLLMは、モデルを本来のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。
そして、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとして各チャンクにローカルコンテキストを付加し、最終的に抽出した情報をローカルコンテキストに統合する。
FocusLLMは、トレーニング効率と汎用性に優れており、トレーニングコストが従来の方法よりもはるかに低い8K入力長でトレーニングされている。
私たちのコードはhttps://github.com/leezythu/FocusLLM.comで利用可能です。
関連論文リスト
- When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。
我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。
我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文 参考訳(メタデータ) (2024-11-20T17:22:31Z) - Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - Make Your LLM Fully Utilize the Context [70.89099306100155]
FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。
FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-25T17:55:14Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。