Fugu-MT 論文翻訳(概要): FocusLLM: Scaling LLM's Context by Parallel Decoding

論文の概要: FocusLLM: Scaling LLM's Context by Parallel Decoding

arxiv url: http://arxiv.org/abs/2408.11745v1
Date: Wed, 21 Aug 2024 16:11:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 16:18:16.547838
Title: FocusLLM: Scaling LLM's Context by Parallel Decoding
Title（参考訳）: FocusLLM:並列デコーディングによるLLMのコンテキストのスケーリング
Authors: Zhenyu Li, Yike Zhang, Tengyu Pan, Yutao Sun, Zhichao Duan, Junjie Fang, Rong Han, Zixuan Wang, Jianyong Wang,
Abstract要約: FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。 FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
参考スコア（独自算出の注目度）: 16.642675785000176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Empowering LLMs with the ability to utilize useful information from a long context is crucial for many downstream applications. However, achieving long context lengths with the conventional transformer architecture requires substantial training and inference resources. In this paper, we present FocusLLM, a framework designed to extend the context length of any decoder-only LLM, enabling the model to focus on relevant information from very long sequences. FocusLLM processes long text inputs by dividing them into chunks based on the model's original context length to alleviate the issue of attention distraction. Then, it appends the local context to each chunk as a prompt to extract essential information from each chunk based on a novel parallel decoding mechanism, and ultimately integrates the extracted information into the local context. FocusLLM stands out for great training efficiency and versatility: trained with an 8K input length with much less training cost than previous methods, FocusLLM exhibits superior performance across downstream long-context tasks and maintains strong language modeling ability when handling extensive long texts, even up to 400K tokens. Our code is available at https://github.com/leezythu/FocusLLM.
Abstract（参考訳）: 長いコンテキストから有用な情報を利用する能力を備えたLLMの強化は、多くのダウンストリームアプリケーションにとって不可欠である。しかし、従来のトランスフォーマーアーキテクチャで長いコンテキスト長を実現するには、かなりのトレーニングと推論資源が必要である。本論文では,デコーダのみのLLMのコンテキスト長を拡張可能なフレームワークであるFocusLLMを提案する。 FocusLLMは、モデルを本来のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。そして、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとして各チャンクにローカルコンテキストを付加し、最終的に抽出した情報をローカルコンテキストに統合する。 FocusLLMは、トレーニング効率と汎用性に優れており、トレーニングコストが従来の方法よりもはるかに低い8K入力長でトレーニングされている。私たちのコードはhttps://github.com/leezythu/FocusLLM.comで利用可能です。

関連論文リスト

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文参考訳（メタデータ） (2024-11-20T17:22:31Z)
Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文参考訳（メタデータ） (2024-11-08T19:27:42Z)
LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。 LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文参考訳（メタデータ） (2024-08-31T17:19:30Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文参考訳（メタデータ） (2024-06-16T15:50:10Z)
From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。 SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。 6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文参考訳（メタデータ） (2024-05-23T06:17:23Z)
Make Your LLM Fully Utilize the Context [70.89099306100155]
FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。 FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-04-25T17:55:14Z)
Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。 (Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。 LLMはコンテキストの中央に位置する関連情報を扱う。
論文参考訳（メタデータ） (2024-03-05T04:58:37Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)
Focused Transformer: Contrastive Training for Context Scaling [31.44508996359732]
コントラスト学習にインスパイアされたトレーニングプロセスを利用するFoT(FoT)を導入する。 FoTは(key, value)空間の構造を強化し、コンテキスト長の拡張を可能にする。提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
論文参考訳（メタデータ） (2023-07-06T17:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。