論文の概要: L-RAG: Balancing Context and Retrieval with Entropy-Based Lazy Loading
- arxiv url: http://arxiv.org/abs/2601.06551v1
- Date: Sat, 10 Jan 2026 12:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.87192
- Title: L-RAG: Balancing Context and Retrieval with Entropy-Based Lazy Loading
- Title(参考訳): L-RAG:エントロピーに基づく遅延負荷によるコンテキストと検索のバランス
- Authors: Sergii Voloshyn,
- Abstract要約: Reval-Augmented Generation (RAG) は、大規模言語のアウトプットを現実の知識で基礎づける主要なパラダイムとして登場した。
本稿では,エントロピーゲーティングによる階層型コンテキスト管理を実現する適応型フレームワークL-RAGを紹介する。
L-RAGはより効率的なRAGデプロイメントに向けた実践的でトレーニングなしのアプローチを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as the predominant paradigm for grounding Large Language Model outputs in factual knowledge, effectively mitigating hallucinations. However, conventional RAG systems operate under a "retrieve-always" assumption, querying vector databases for every input regardless of query complexity. This static approach incurs substantial computational overhead and inference latency, particularly problematic for high-throughput production deployments. We introduce L-RAG (Lazy Retrieval-Augmented Generation), an adaptive framework that implements hierarchical context management through entropy-based gating. L-RAG employs a two-tier architecture: queries are first processed with a compact document summary, and expensive chunk retrieval is triggered only when the model's predictive entropy exceeds a calibrated threshold, signaling genuine uncertainty. Through experiments on SQuAD 2.0 (N=500) using the Phi-2 model, we demonstrate that L-RAG provides a tunable accuracy-efficiency trade-off: at a conservative threshold (tau=0.5), L-RAG achieves 78.2% accuracy, matching Standard RAG (77.8%), with 8% retrieval reduction; at a balanced threshold (tau=1.0), retrieval reduction increases to 26% with modest accuracy trade-off (76.0%). Latency analysis shows that L-RAG saves 80-210ms per query when retrieval latency exceeds 500ms. Analysis of entropy distributions reveals statistically significant separation (p < 0.001) between correct predictions (H=1.72) and errors (H=2.20), validating entropy as a reliable uncertainty signal. L-RAG offers a practical, training-free approach toward more efficient RAG deployment, providing system architects with a configurable knob to balance accuracy and throughput requirements.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模言語モデルのアウトプットを現実の知識で基礎づける主要なパラダイムとして現れ、幻覚を効果的に緩和している。
しかし、従来のRAGシステムは、クエリの複雑さに関わらず、全ての入力に対してベクトルデータベースをクエリする「常に検索」仮定の下で動作している。
この静的アプローチは、特に高スループットの運用デプロイメントにおいて、かなりの計算オーバーヘッドと推論遅延を引き起こす。
本稿では,L-RAG(Lazy Retrieval-Augmented Generation)を導入する。
クエリはまずコンパクトなドキュメントサマリーで処理され、予測エントロピーが校正しきい値を超えた場合にのみ高価なチャンク検索がトリガーされる。
Phi-2モデルを用いたSQuAD 2.0(N=500)の実験により、L-RAGが調整可能な精度-効率トレードオフを提供することを示した: 保守的しきい値(tau=0.5)では、L-RAGは78.2%の精度で、標準RAG(77.8%)と一致し、8%の検索リダクション、バランスの取れたしきい値(tau=1.0)では、適度な精度トレードオフ(76.0%)で26%に向上する。
遅延解析により,検索遅延が500msを超えると,L-RAGはクエリ毎の80-210msを節約できることがわかった。
エントロピー分布の解析は、正しい予測(H=1.72)とエラー(H=2.20)の間に統計的に有意な分離(p < 0.001)を示し、エントロピーを確実な不確実性信号として検証する。
L-RAGはより効率的なRAGデプロイメントに向けた実践的でトレーニング不要なアプローチを提供し、システムアーキテクトに精度とスループットの要求のバランスを取るための設定可能なノブを提供する。
関連論文リスト
- Hierarchical Spatio-Temporal Attention Network with Adaptive Risk-Aware Decision for Forward Collision Warning in Complex Scenarios [7.238050152381639]
本稿では,階層型時空間注意ネットワークと動的リスク閾値調整アルゴリズムを併用した前方衝突警報フレームワークを提案する。
マルチシナリオデータセットでテストされ、完全なシステムは高い有効性を示し、F1スコアは0.912、偽警報率は8.2%、警告リード時間は2.8秒である。
論文 参考訳(メタデータ) (2025-11-25T05:57:29Z) - Adaptive Rescheduling in Prefill-Decode Disaggregated LLM Inference [29.19884207604898]
大規模言語モデル(LLM)推論は基本的なパラダイムとして登場した。
本稿では,時間予測を利用した適応型復号化システムであるARESを提案する。
論文 参考訳(メタデータ) (2025-10-15T15:29:08Z) - Open-Source Agentic Hybrid RAG Framework for Scientific Literature Review [2.092154729589438]
本稿では,ハイブリッドRAGパイプラインを自律エージェント内にカプセル化するエージェントアプローチを提案する。
当社のパイプラインでは,PubMedやarXiv,Google Scholar APIから,バイオロジカルなオープンアクセスデータを収集しています。
Llama-3.3-70B エージェントが GraphRAG (クエリを Cypher for KG に変換する) または VectorRAG (スパースと高密度検索を組み合わせて再ランク付けする) を選択する
論文 参考訳(メタデータ) (2025-07-30T18:54:15Z) - SymRAG: Efficient Neuro-Symbolic Retrieval Through Adaptive Query Routing [8.775121469887033]
現在のRetrieval-Augmented Generationシステムは一様処理を使用しており、単純なクエリが複雑なマルチホップタスクに似たリソースを消費するので非効率である。
リアルタイム複雑化と負荷評価による適応型クエリルーティングを導入し,シンボル,ニューラル,ハイブリッドの経路を選択するためのフレームワークであるSymRAGを提案する。
論文 参考訳(メタデータ) (2025-06-15T22:35:43Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Hallucinations and Truth: A Comprehensive Accuracy Evaluation of RAG, LoRA and DoRA [0.0]
生成AIの最近の進歩により、自然言語処理(NLP)システムの効率性と適応性が大幅に向上した。
本稿では,RAG,LoRA,DoRAを大規模に評価し,2万のFAQクエリに基づいてモデル微調整と生成性能を評価する。
DoRAは高い精度(90.1%)、関連スコア(0.88)、最低レイテンシ(クエリ毎110ms)を達成し、現実のドメイン固有の生成AIアプリケーションにおいてLoRAとRAGの両方を上回っている。
論文 参考訳(メタデータ) (2025-02-14T17:38:25Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。