Fugu-MT 論文翻訳(概要): Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control

論文の概要: Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control

arxiv url: http://arxiv.org/abs/2502.12145v1
Date: Mon, 17 Feb 2025 18:56:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.502888
Title: Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control
Title（参考訳）: 高速か改善か? フレキシブルユーザ制御による検索拡張世代における精度とコストのバランス
Authors: Jinyan Su, Jennifer Healey, Preslav Nakov, Claire Cardie,
Abstract要約: Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
参考スコア（独自算出の注目度）: 52.405085773954596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful approach to mitigate large language model (LLM) hallucinations by incorporating external knowledge retrieval. However, existing RAG frameworks often apply retrieval indiscriminately,leading to inefficiencies-over-retrieving when unnecessary or failing to retrieve iteratively when required for complex reasoning. Recent adaptive retrieval strategies, though adaptively navigates these retrieval strategies, predict only based on query complexity and lacks user-driven flexibility, making them infeasible for diverse user application needs. In this paper, we introduce a novel user-controllable RAG framework that enables dynamic adjustment of the accuracy-cost trade-off. Our approach leverages two classifiers: one trained to prioritize accuracy and another to prioritize retrieval efficiency. Via an interpretable control parameter $\alpha$, users can seamlessly navigate between minimal-cost retrieval and high-accuracy retrieval based on their specific requirements. We empirically demonstrate that our approach effectively balances accuracy, retrieval cost, and user controllability, making it a practical and adaptable solution for real-world applications.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、外部知識検索を取り入れた大規模言語モデル(LLM)幻覚を緩和するための強力なアプローチとして登場した。しかしながら、既存のRAGフレームワークは検索を無差別に適用し、複雑な推論に必要な場合、不要または反復的に検索できない場合、非効率な再検索につながる。最近の適応型検索戦略は、これらの検索戦略を適応的にナビゲートするが、クエリの複雑さのみに基づいて予測し、ユーザ主導の柔軟性に欠けており、多様なユーザアプリケーションのニーズに対して実現不可能である。本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。提案手法では,精度を優先するために訓練された2つの分類器と,検索効率を優先するために訓練された2つの分類器を利用する。解釈可能な制御パラメータ$\alpha$を使用すると、ユーザは、最小限のコストの検索と、その特定の要求に基づいて高精度の検索をシームレスにナビゲートできる。我々は,本手法が精度,検索コスト,ユーザ制御性を効果的にバランスし,現実のアプリケーションに対して実用的で適応可能なソリューションであることを実証的に実証した。

関連論文リスト

ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文参考訳（メタデータ） (2026-02-27T05:22:01Z)
Is Agentic RAG worth it? An experimental comparison of RAG approaches [0.07777489763207261]
検索・拡張生成システムは通常、ジェネレータと検索コンポーネントの組み合わせで定義される。これらの欠点は「強化されたRAG」の開発を動機づけている。大規模言語モデルの自己回帰能力の増大により,新たなパラダイムが実現した。
論文参考訳（メタデータ） (2026-01-12T16:43:44Z)
Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文参考訳（メタデータ） (2025-10-20T04:16:28Z)
Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。 Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文参考訳（メタデータ） (2025-09-30T22:19:44Z)
Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-11T06:53:27Z)
Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文参考訳（メタデータ） (2025-06-16T15:34:29Z)
ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文参考訳（メタデータ） (2025-06-02T21:38:21Z)
syftr: Pareto-Optimal Generative AI [40.80352098169579]
syftrはエージェントと非エージェントのRAG構成の広い領域で効率的な多目的探索を行うフレームワークである。 Syftrは、最も正確な流れの正確さを保ちながら、平均して9倍のコストで流れを見つける。
論文参考訳（メタデータ） (2025-05-26T17:43:13Z)
DioR: Adaptive Cognitive Detection and Contextual Retrieval Optimization for Dynamic Retrieval-Augmented Generation [8.763986795098216]
Dynamic Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚の緩和に成功している。本稿では,適応的認識検出と文脈的検索最適化という2つの主要コンポーネントからなる,革新的な動的RAG手法であるDioRを提案する。
論文参考訳（メタデータ） (2025-04-14T13:02:53Z)
Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文参考訳（メタデータ） (2025-04-14T06:54:49Z)
Do Retrieval-Augmented Language Models Adapt to Varying User Needs? [28.729041459278587]
本稿では,3つのユーザニーズ条件下でALMを体系的に評価する新しい評価フレームワークを提案する。ユーザインストラクションと検索された情報の性質の両方を変えることで、我々のアプローチは現実世界のアプリケーションの複雑さを捉えます。本研究は,検索システム開発におけるユーザ中心評価の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-02-27T05:39:38Z)
Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文参考訳（メタデータ） (2025-01-08T20:11:09Z)
The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文参考訳（メタデータ） (2025-01-04T03:26:46Z)
Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文参考訳（メタデータ） (2024-12-20T06:58:32Z)
Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文参考訳（メタデータ） (2024-12-16T19:11:55Z)
MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity [30.346398341996476]
本稿では,クエリの複雑性に基づいて最適な検索戦略を動的に選択する強化学習ベースのフレームワークを提案する。提案手法は,検索コストを低減しつつ,複数のシングルホップおよびマルチホップデータセット上でのアート結果の新たな状態を実現する。
論文参考訳（メタデータ） (2024-12-02T14:55:02Z)
Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文参考訳（メタデータ） (2024-10-11T14:03:29Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。 CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文参考訳（メタデータ） (2024-01-29T04:36:39Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。