Fugu-MT 論文翻訳(概要): PRISM: Efficient Long-Range Reasoning With Short-Context LLMs

論文の概要: PRISM: Efficient Long-Range Reasoning With Short-Context LLMs

arxiv url: http://arxiv.org/abs/2412.18914v3
Date: Sun, 24 Aug 2025 22:09:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-26 14:31:50.438801
Title: PRISM: Efficient Long-Range Reasoning With Short-Context LLMs
Title（参考訳）: PRISM: 短時間のLLMによる効率的なロングレンジ推論
Authors: Dulhan Jayalath, James Bradley Wendt, Nicholas Monath, Sandeep Tata, Beliz Gunel,
Abstract要約: PRISMは、構造化スキーマに基づく高度にトークン効率のよいインコンテキスト手法であり、4倍の短いコンテキストで様々なタスクのベースラインを上回ります。 PRISMはコストを増やしたり品質を犠牲にすることなく小さなコンテキストにスケールダウンし、最小限の労力で新しいタスクに一般化する。
参考スコア（独自算出の注目度）: 9.765301809261159
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-range tasks demand reasoning over long inputs. However, existing solutions are limited, e.g., long-context models require large compute budgets, parameter-efficient fine-tuning (PEFT) needs training data, and retrieval-augmented generation (RAG) entails complex task-specific designs. Though in-context approaches overcome many of these issues, methods with short-context LLMs are inefficient, trading context for processing more tokens. We introduce PRISM, a highly token-efficient in-context method based on structured schemas that outperforms baselines on diverse tasks with 4x shorter contexts. This approach produces concise outputs and efficiently leverages key-value (KV) caches to reduce costs by up to 54%. PRISM scales down to tiny contexts without increasing costs or sacrificing quality, and generalizes to new tasks with minimal effort by generating schemas from task descriptions.
Abstract（参考訳）: 長距離タスクは、長い入力に対して推論を要求する。しかし、既存のソリューションは限定的であり、例えば、長期コンテキストモデルは大きな計算予算を必要とし、パラメータ効率の微調整(PEFT)はトレーニングデータを必要とし、検索拡張生成(RAG)は複雑なタスク固有の設計を必要とする。コンテキスト内アプローチはこれらの問題の多くを克服するが、短いコンテキスト LLM のメソッドは非効率であり、より多くのトークンを処理するためのトレーディングコンテキストである。 PRISMは,4倍の短いコンテキストで,多様なタスクのベースラインを上回り,構造化スキーマに基づく高トークン効率のインコンテキスト手法である。このアプローチは簡潔な出力を生成し、キー値(KV)キャッシュを効率的に利用してコストを最大54%削減する。 PRISMはコストや品質を犠牲にすることなく、小さなコンテキストにスケールダウンし、タスク記述からスキーマを生成することで、最小限の労力で新しいタスクに一般化する。

関連論文リスト

Leveraging the Power of Large Language Models in Entity Linking via Adaptive Routing and Targeted Reasoning [4.338036373287262]
ARTERは、深い微調整なしで高性能を実現する構造化パイプラインを提供する。これは、候補生成、コンテキストベースのスコアリング、適応ルーティング、選択推論を戦略的に組み合わせている。標準ベンチマークでは、ARTERはReFinEDを最大4.47%上回り、6つのデータセットのうち5つで平均2.53%上昇している。
論文参考訳（メタデータ） (2025-10-23T00:50:14Z)
Efficient Graph Understanding with LLMs via Structured Context Injection [8.393355845456659]
本稿では,タスク固有の情報を入力に体系的に組み込んでLLMを誘導し,幅広いグラフ問題を解く構造化コンテキスト注入フレームワークを提案する。 LLMの微調整は不要であり、コスト効率と軽量化を実現している。我々は,軽量モデルと大規模モデルの両方を用いて,複数のグラフタスクに対するアプローチを評価し,精度と計算コストのトレードオフを強調した。
論文参考訳（メタデータ） (2025-08-31T08:07:56Z)
Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models [11.012474205717178]
大規模言語モデル(LLM)は、リアルタイムの質問応答と検索拡張生成のために、エッジとクラウドプラットフォームにデプロイされることが増えている。本稿では,文脈要約を保存・再利用するためのセマンティックキャッシング手法を提案する。本手法は,全文書処理に匹敵する解の精度を維持しつつ,冗長計算を最大50～60%削減する。
論文参考訳（メタデータ） (2025-05-16T14:04:31Z)
Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation [15.975325252309554]
本稿では,大規模言語モデルのコンテキストウィンドウを効率的に拡張するための新しい学習後合成データ生成戦略を提案する。我々のアプローチは、利用可能な実世界のデータの長さに制約されずに、任意に長いコンテキスト長まで強固に拡張する。我々は,RULERベンチマークとInfiniteBenchにおいて,最大100万トークンのコンテキスト長を持つモデルの有効性を実証した。
論文参考訳（メタデータ） (2025-04-17T04:46:57Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文参考訳（メタデータ） (2025-03-05T15:24:11Z)
WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文参考訳（メタデータ） (2025-02-23T18:59:09Z)
Does RAG Really Perform Bad For Long-Context Processing? [15.889864680212147]
RetroLMは長文処理のための新しいフレームワークである。従来の方法とは異なり、RetroLMはKVレベルの検索拡張を採用している。この枠組みに基づいて,臨界ページの正確な検索を行うための特殊検索器を開発した。
論文参考訳（メタデータ） (2025-02-17T05:02:25Z)
An Effective Framework to Help Large Language Models Handle Numeric-involved Long-context Tasks [0.0]
大きな言語モデル(LLM)は、長いテキストを扱う際、顕著な能力を示した。長文の数値計算では,その性能は著しく低下する。本稿では,数値型長文タスクを4つの低レベルサブタスクに分解するワークフローを提案する。 2つの数値付き長期コンテキストベンチマークの結果は、ワークフローが精度を向上できるだけでなく、API呼び出しのコストを大幅に削減できることを示している。
論文参考訳（メタデータ） (2024-11-15T12:39:02Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。 LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文参考訳（メタデータ） (2024-04-11T17:57:22Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。 IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文参考訳（メタデータ） (2022-06-04T10:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。