論文の概要: PRISM: Efficient Long-Range Reasoning With Short-Context LLMs
- arxiv url: http://arxiv.org/abs/2412.18914v3
- Date: Sun, 24 Aug 2025 22:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.438801
- Title: PRISM: Efficient Long-Range Reasoning With Short-Context LLMs
- Title(参考訳): PRISM: 短時間のLLMによる効率的なロングレンジ推論
- Authors: Dulhan Jayalath, James Bradley Wendt, Nicholas Monath, Sandeep Tata, Beliz Gunel,
- Abstract要約: PRISMは、構造化スキーマに基づく高度にトークン効率のよいインコンテキスト手法であり、4倍の短いコンテキストで様々なタスクのベースラインを上回ります。
PRISMはコストを増やしたり品質を犠牲にすることなく小さなコンテキストにスケールダウンし、最小限の労力で新しいタスクに一般化する。
- 参考スコア(独自算出の注目度): 9.765301809261159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-range tasks demand reasoning over long inputs. However, existing solutions are limited, e.g., long-context models require large compute budgets, parameter-efficient fine-tuning (PEFT) needs training data, and retrieval-augmented generation (RAG) entails complex task-specific designs. Though in-context approaches overcome many of these issues, methods with short-context LLMs are inefficient, trading context for processing more tokens. We introduce PRISM, a highly token-efficient in-context method based on structured schemas that outperforms baselines on diverse tasks with 4x shorter contexts. This approach produces concise outputs and efficiently leverages key-value (KV) caches to reduce costs by up to 54%. PRISM scales down to tiny contexts without increasing costs or sacrificing quality, and generalizes to new tasks with minimal effort by generating schemas from task descriptions.
- Abstract(参考訳): 長距離タスクは、長い入力に対して推論を要求する。
しかし、既存のソリューションは限定的であり、例えば、長期コンテキストモデルは大きな計算予算を必要とし、パラメータ効率の微調整(PEFT)はトレーニングデータを必要とし、検索拡張生成(RAG)は複雑なタスク固有の設計を必要とする。
コンテキスト内アプローチはこれらの問題の多くを克服するが、短いコンテキスト LLM のメソッドは非効率であり、より多くのトークンを処理するためのトレーディングコンテキストである。
PRISMは,4倍の短いコンテキストで,多様なタスクのベースラインを上回り,構造化スキーマに基づく高トークン効率のインコンテキスト手法である。
このアプローチは簡潔な出力を生成し、キー値(KV)キャッシュを効率的に利用してコストを最大54%削減する。
PRISMはコストや品質を犠牲にすることなく、小さなコンテキストにスケールダウンし、タスク記述からスキーマを生成することで、最小限の労力で新しいタスクに一般化する。
関連論文リスト
- Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models [11.012474205717178]
大規模言語モデル(LLM)は、リアルタイムの質問応答と検索拡張生成のために、エッジとクラウドプラットフォームにデプロイされることが増えている。
本稿では,文脈要約を保存・再利用するためのセマンティックキャッシング手法を提案する。
本手法は,全文書処理に匹敵する解の精度を維持しつつ,冗長計算を最大50~60%削減する。
論文 参考訳(メタデータ) (2025-05-16T14:04:31Z) - Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation [15.975325252309554]
本稿では,大規模言語モデルのコンテキストウィンドウを効率的に拡張するための新しい学習後合成データ生成戦略を提案する。
我々のアプローチは、利用可能な実世界のデータの長さに制約されずに、任意に長いコンテキスト長まで強固に拡張する。
我々は,RULERベンチマークとInfiniteBenchにおいて,最大100万トークンのコンテキスト長を持つモデルの有効性を実証した。
論文 参考訳(メタデータ) (2025-04-17T04:46:57Z) - Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。
モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。
本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。
クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。
ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-23T18:59:09Z) - An Effective Framework to Help Large Language Models Handle Numeric-involved Long-context Tasks [0.0]
大きな言語モデル(LLM)は、長いテキストを扱う際、顕著な能力を示した。
長文の数値計算では,その性能は著しく低下する。
本稿では,数値型長文タスクを4つの低レベルサブタスクに分解するワークフローを提案する。
2つの数値付き長期コンテキストベンチマークの結果は、ワークフローが精度を向上できるだけでなく、API呼び出しのコストを大幅に削減できることを示している。
論文 参考訳(メタデータ) (2024-11-15T12:39:02Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。