論文の概要: Long-Range Tasks Using Short-Context LLMs: Incremental Reasoning With Structured Memories
- arxiv url: http://arxiv.org/abs/2412.18914v1
- Date: Wed, 25 Dec 2024 14:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:04.999643
- Title: Long-Range Tasks Using Short-Context LLMs: Incremental Reasoning With Structured Memories
- Title(参考訳): 短時間LLMを用いた長期タスク:構造化記憶を用いたインクリメンタル推論
- Authors: Dulhan Jayalath, James Bradley Wendt, Nicholas Monath, Sandeep Tata, Beliz Gunel,
- Abstract要約: 本稿では,情報をチャンクのストリームとして処理し,コンテクスト内メモリを構造化したPRISMを提案する。
このアプローチは、少なくとも4倍の小さなコンテキストを使用しながら、多様なタスクのベースラインよりも優れたパフォーマンスを示す。
代替の短文アプローチに比べて54%のコスト削減を実現している。
- 参考スコア(独自算出の注目度): 12.133230897181594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-range tasks require reasoning over long inputs. Existing solutions either need large compute budgets, training data, access to model weights, or use complex, task-specific approaches. We present PRISM, which alleviates these concerns by processing information as a stream of chunks, maintaining a structured in-context memory specified by a typed hierarchy schema. This approach demonstrates superior performance to baselines on diverse tasks while using at least 4x smaller contexts than long-context models. Moreover, PRISM is token-efficient. By producing short outputs and efficiently leveraging key-value (KV) caches, it achieves up to 54% cost reduction when compared to alternative short-context approaches. The method also scales down to tiny information chunks (e.g., 500 tokens) without increasing the number of tokens encoded or sacrificing quality. Furthermore, we show that it is possible to generate schemas to generalize our approach to new tasks with minimal effort.
- Abstract(参考訳): 長距離タスクは、長い入力に対する推論を必要とする。
既存のソリューションには、大規模な計算予算、トレーニングデータ、モデルウェイトへのアクセス、複雑なタスク固有のアプローチのいずれかが必要です。
PRISMは、情報をチャンクのストリームとして処理し、型付き階層スキーマで指定された構造化されたインコンテキストメモリを維持することにより、これらの懸念を軽減する。
このアプローチは、長いコンテキストモデルよりも少なくとも4倍小さいコンテキストを使用しながら、多様なタスクのベースラインよりも優れたパフォーマンスを示す。
さらに、PRISMはトークン効率が高い。
ショートアウトプットを生成し、キー値(KV)キャッシュを効率的に活用することにより、代替のショートコンテクストアプローチと比較して最大54%のコスト削減を実現している。
この方法は、コード化されたトークンの数を増やしたり、品質を犠牲にすることなく、小さな情報チャンク(例:500トークン)にまでスケールダウンする。
さらに、最小限の労力で新しいタスクへのアプローチを一般化するためにスキーマを生成することが可能であることを示す。
関連論文リスト
- Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation [15.975325252309554]
本稿では,大規模言語モデルのコンテキストウィンドウを効率的に拡張するための新しい学習後合成データ生成戦略を提案する。
我々のアプローチは、利用可能な実世界のデータの長さに制約されずに、任意に長いコンテキスト長まで強固に拡張する。
我々は,RULERベンチマークとInfiniteBenchにおいて,最大100万トークンのコンテキスト長を持つモデルの有効性を実証した。
論文 参考訳(メタデータ) (2025-04-17T04:46:57Z) - Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。
モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。
本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。
クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。
ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-23T18:59:09Z) - An Effective Framework to Help Large Language Models Handle Numeric-involved Long-context Tasks [0.0]
大きな言語モデル(LLM)は、長いテキストを扱う際、顕著な能力を示した。
長文の数値計算では,その性能は著しく低下する。
本稿では,数値型長文タスクを4つの低レベルサブタスクに分解するワークフローを提案する。
2つの数値付き長期コンテキストベンチマークの結果は、ワークフローが精度を向上できるだけでなく、API呼び出しのコストを大幅に削減できることを示している。
論文 参考訳(メタデータ) (2024-11-15T12:39:02Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。