論文の概要: FocusLLM: Precise Understanding of Long Context by Dynamic Condensing
- arxiv url: http://arxiv.org/abs/2408.11745v2
- Date: Mon, 23 Dec 2024 15:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:40.695211
- Title: FocusLLM: Precise Understanding of Long Context by Dynamic Condensing
- Title(参考訳): FocusLLM:動的凝縮による長期文脈の高精度理解
- Authors: Zhenyu Li, Yike Zhang, Tengyu Pan, Yutao Sun, Zhichao Duan, Junjie Fang, Rong Han, Zixuan Wang, Jianyong Wang,
- Abstract要約: FocusLLM は、デコーダのみの LLM の固定コンテキスト長を拡張するように設計されたフレームワークである。
動的凝縮法を用いて、各チャンクから重要な情報を蒸留する。
最終的に、新しい並列デコーディング機構によって、FocusLLMは抽出した情報をそのローカルコンテキストに統合することができる。
- 参考スコア(独自算出の注目度): 16.642675785000176
- License:
- Abstract: Empowering LLMs with the ability to precisely understand long contexts is crucial for many downstream applications. However, handling long contexts with conventional transformer architecture requires substantial training and inference resources. Existing context condensing methods cannot accurately understand the full context, as there is a considerable amount of information loss in the condensing process. To address these issues, we present FocusLLM, a framework designed to extend the fixed context length of any decoder-only LLM, allowing the model to focus on relevant information from very long sequences. FocusLLM first divides long text input into chunks based on the model's original context length. It then employs the dynamic condensing process to distill crucial information from each chunk. Ultimately, through the novel parallel decoding mechanism, FocusLLM can integrate the extracted information into its local context. FocusLLM stands out for great training efficiency and versatility: trained with an 8K input length and with much less training cost than previous methods, FocusLLM exhibits superior performance across downstream tasks and maintains strong language modeling ability when handling extensive long texts, even up to 400K tokens. Our code is available at https://github.com/leezythu/FocusLLM.
- Abstract(参考訳): LLMに長いコンテキストを正確に理解する能力を持たせることは、多くのダウンストリームアプリケーションにとって非常に重要です。
しかし、長いコンテキストを従来のトランスフォーマーアーキテクチャで扱うには、かなりのトレーニングと推論リソースが必要である。
既存のコンデンシング手法では、コンデンシングプロセスにかなりの量の情報損失があるため、コンデンシングの全コンテキストを正確に理解できない。
これらの問題に対処するため、FocusLLMはデコーダのみのLLMの固定コンテキスト長を拡張するように設計されたフレームワークで、非常に長いシーケンスから関連する情報にフォーカスすることができる。
FocusLLMはまず、モデルの本来のコンテキスト長に基づいて、長いテキスト入力をチャンクに分割する。
次に、動的凝縮法を用いて、各チャンクから重要な情報を蒸留する。
最終的に、新しい並列デコーディング機構によって、FocusLLMは抽出した情報をそのローカルコンテキストに統合することができる。
FocusLLMは8K入力長でトレーニングされ、従来の方法よりもはるかに少ないトレーニングコストで、ダウンストリームタスクにまたがる優れたパフォーマンスを示し、400Kトークンまで、広範囲に長いテキストを扱う場合の強力な言語モデリング能力を維持している。
私たちのコードはhttps://github.com/leezythu/FocusLLM.comで利用可能です。
関連論文リスト
- When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。
我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。
我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文 参考訳(メタデータ) (2024-11-20T17:22:31Z) - Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - Make Your LLM Fully Utilize the Context [70.89099306100155]
FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。
FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-25T17:55:14Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。