Fugu-MT 論文翻訳(概要): Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding

論文の概要: Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding

arxiv url: http://arxiv.org/abs/2504.01281v2
Date: Thu, 03 Apr 2025 01:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-04 12:51:12.732615
Title: Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding
Title（参考訳）: KVキャッシングとデコードによるポリシ最適化動的検索拡張生成によるテスト時間推論のスケーリング
Authors: Sakhinana Sagar Srinivas, Venkataramana Runkana,
Abstract要約: 本稿では,動的検索戦略と強化微調整により,RAG(Retrieval-Augmented Generation)システムを強化する枠組みを提案する。我々のフレームワークは2つの補完手法を統合している: Policy-d Retrieval Augmented Generation (PORAG)とAdaptive Token-Layer Attention Scoring (ATLAS)。我々のフレームワークは幻覚を減らし、ドメイン固有の推論を強化し、従来のRAGシステムよりも優れた効率とスケーラビリティを実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present a comprehensive framework for enhancing Retrieval-Augmented Generation (RAG) systems through dynamic retrieval strategies and reinforcement fine-tuning. This approach significantly improves large language models on knowledge-intensive tasks, including opendomain question answering and complex reasoning. Our framework integrates two complementary techniques: Policy-Optimized RetrievalAugmented Generation (PORAG), which optimizes the use of retrieved information, and Adaptive Token-Layer Attention Scoring (ATLAS), which dynamically determines retrieval timing and content based on contextual needs. Together, these techniques enhance both the utilization and relevance of retrieved content, improving factual accuracy and response quality. Designed as a lightweight solution compatible with any Transformer-based LLM without requiring additional training, our framework excels in knowledge-intensive tasks, boosting output accuracy in RAG settings. We further propose CRITIC, a novel method to selectively compress key-value caches by token importance, mitigating memory bottlenecks in long-context applications. The framework also incorporates test-time scaling techniques to dynamically balance reasoning depth and computational resources, alongside optimized decoding strategies for faster inference. Experiments on benchmark datasets show that our framework reduces hallucinations, strengthens domain-specific reasoning, and achieves significant efficiency and scalability gains over traditional RAG systems. This integrated approach advances the development of robust, efficient, and scalable RAG systems across diverse applications.
Abstract（参考訳）: 本稿では、動的検索戦略と強化微調整により、検索・拡張生成(RAG)システムを強化するための包括的枠組みを提案する。このアプローチは、オープンドメイン質問応答や複雑な推論など、知識集約的なタスクに関する大きな言語モデルを大幅に改善する。提案フレームワークは,検索情報の利用を最適化するPORAGと,状況に応じた検索タイミングと内容の動的決定を行うATLASの2つの補完手法を統合する。これらの技術は、検索されたコンテンツの利用と関連性を高めるとともに、事実の精度と応答品質を向上させる。我々のフレームワークは、追加のトレーニングを必要とせず、トランスフォーマーベースのLLMと互換性のある軽量なソリューションとして設計され、知識集約的なタスクに優れ、RAG設定における出力精度が向上する。さらに、トークンの重要度によってキー値キャッシュを選択的に圧縮する新しい方法であるCRITICを提案し、長文アプリケーションにおけるメモリボトルネックを軽減する。このフレームワークはまた、推論の深さと計算資源を動的にバランスさせるテストタイムスケーリング技術と、より高速な推論のために最適化されたデコード戦略も組み込んでいる。ベンチマークデータセットの実験から,我々のフレームワークは幻覚を減らし,ドメイン固有の推論を強化し,従来のRAGシステムよりも高い効率とスケーラビリティを実現していることがわかった。この統合されたアプローチは、様々なアプリケーションにまたがる堅牢で効率的でスケーラブルなRAGシステムの開発を促進する。

関連論文リスト

AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文参考訳（メタデータ） (2025-06-16T15:18:15Z)
KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文参考訳（メタデータ） (2025-06-03T06:31:17Z)
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。 ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文参考訳（メタデータ） (2025-06-02T03:08:07Z)
Enhancing Cache-Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration [6.399565088857091]
キャッシュ拡張ジェネレーション(CAG)は、検索拡張ジェネレーション(RAG)に代わる有望な代替手段として登場した。本稿では,文脈入力を動的に圧縮・管理する技術である適応文脈圧縮(ACC)を紹介する。本稿では、選択検索を統合し、追加情報を必要とするシナリオにおける事前ロードコンテキストを拡大するハイブリッドCAG-RAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-13T06:24:48Z)
Context-Guided Dynamic Retrieval for Improving Generation Quality in RAG Models [2.9687381456164004]
意味理解と知識スケジューリングの効率化を図るための状態認識型動的知識検索機構を提案する。提案した構造は, GPT-4, GPT-4o, DeepSeek など,様々な大規模モデルで徹底的に評価されている。このアプローチはまた、意味的あいまいさとマルチドキュメント融合を含むタスクにおいて、強い堅牢性と生成一貫性を示す。
論文参考訳（メタデータ） (2025-04-28T02:50:45Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
RAG-KG-IL: A Multi-Agent Hybrid Framework for Reducing Hallucinations and Enhancing LLM Reasoning through RAG and Incremental Knowledge Graph Learning Integration [4.604003661048267]
RAG-KG-ILは、大規模言語モデルの推論能力を高めるために設計された、新しいマルチエージェントハイブリッドフレームワークである。 Retrieval-Augmented Generation (RAG) と Knowledge Graphs (KG) をインクリメンタルラーニング (IL) アプローチに統合する。我々は、健康関連クエリを含む実世界のケーススタディを用いて、このフレームワークを評価する。
論文参考訳（メタデータ） (2025-03-14T11:50:16Z)
Towards Adaptive Memory-Based Optimization for Enhanced Retrieval-Augmented Generation [3.294519547931054]
Retrieval-Augmented Generation (RAG)は、外部知識ベースからの非パラメトリック知識をモデルに統合する。既存のRAGメソッドは、オープンドメイン質問回答(QA)タスクに苦労する。オープンドメインQAタスクのための拡張RAGのための適応メモリベースの最適化を提案する。
論文参考訳（メタデータ） (2025-02-19T04:23:12Z)
Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:56:20Z)
Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文参考訳（メタデータ） (2024-12-10T15:56:03Z)
LightRAG: Simple and Fast Retrieval-Augmented Generation [12.86888202297654]
Retrieval-Augmented Generation (RAG) システムは、外部知識ソースを統合することで、大規模言語モデル(LLM)を強化する。既存のRAGシステムには、フラットなデータ表現への依存やコンテキスト認識の欠如など、大きな制限がある。テキストインデックスと検索プロセスにグラフ構造を組み込んだLightRAGを提案する。
論文参考訳（メタデータ） (2024-10-08T08:00:12Z)
WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs [10.380692079063467]
本稿では,Web検索と知識グラフを統合したWeKnow-RAGを提案する。まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
論文参考訳（メタデータ） (2024-08-14T15:19:16Z)
RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文参考訳（メタデータ） (2024-03-14T02:26:31Z)
DNS-Rec: Data-aware Neural Architecture Search for Recommender Systems [79.76519917171261]
本稿では,SRS(Sequential Recommender Systems)における計算オーバーヘッドと資源非効率性について述べる。本稿では, プルーニング法と高度なモデル設計を組み合わせた革新的な手法を提案する。我々の主な貢献は、リコメンダシステム(DNS-Rec)のためのデータ対応ニューラルアーキテクチャ検索の開発である。
論文参考訳（メタデータ） (2024-02-01T07:22:52Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。