論文の概要: Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency
- arxiv url: http://arxiv.org/abs/2505.08445v1
- Date: Tue, 13 May 2025 11:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.530878
- Title: Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency
- Title(参考訳): 検索時間拡張生成の最適化:ハイパーパラメータが性能と効率に与える影響の分析
- Authors: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila,
- Abstract要約: 大規模な言語モデルは高いタスク性能を達成するが、しばしば幻覚や時代遅れの知識に依存している。
Retrieval-augmented Generation (RAG) は、これらのギャップに外部探索と結合して対処する。
- 参考スコア(独自算出の注目度): 1.6177972328875518
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models achieve high task performance yet often hallucinate or rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses these gaps by coupling generation with external search. We analyse how hyperparameters influence speed and quality in RAG systems, covering Chroma and Faiss vector stores, chunking policies, cross-encoder re-ranking, and temperature, and we evaluate six metrics: faithfulness, answer correctness, answer relevancy, context precision, context recall, and answer similarity. Chroma processes queries 13% faster, whereas Faiss yields higher retrieval precision, revealing a clear speed-accuracy trade-off. Naive fixed-length chunking with small windows and minimal overlap outperforms semantic segmentation while remaining the quickest option. Re-ranking provides modest gains in retrieval quality yet increases runtime by roughly a factor of 5, so its usefulness depends on latency constraints. These results help practitioners balance computational cost and accuracy when tuning RAG systems for transparent, up-to-date responses. Finally, we re-evaluate the top configurations with a corrective RAG workflow and show that their advantages persist when the model can iteratively request additional evidence. We obtain a near-perfect context precision (99%), which demonstrates that RAG systems can achieve extremely high retrieval accuracy with the right combination of hyperparameters, with significant implications for applications where retrieval quality directly impacts downstream task performance, such as clinical decision support in healthcare.
- Abstract(参考訳): 大規模な言語モデルは高いタスク性能を達成するが、しばしば幻覚や時代遅れの知識に依存している。
Retrieval-augmented Generation (RAG) は、これらのギャップに外部探索と結合して対処する。
ハイパーパラメータがRAGシステムの速度と品質にどのように影響するかを分析し、クロマとファイスベクトルストア、チャンキングポリシー、クロスエンコーダの再ランク、温度をカバーし、信頼度、答えの正しさ、回答の妥当性、文脈の正確性、文脈のリコール、回答の類似性といった6つの指標を評価した。
クロマはクエリを13%高速に処理するが、Faissは高い検索精度を示し、明確なスピード精度のトレードオフを示す。
小さなウィンドウと最小のオーバーラップによる固定長チャンキングは、最も高速なオプションを維持しながらセマンティックセグメンテーションより優れている。
再ランク付けは、検索品質がわずかに向上するが、ランタイムを約5倍に向上させるため、その有用性はレイテンシの制約に依存する。
これらの結果は、透過的で最新の応答のためにRAGシステムをチューニングする際の計算コストと精度のバランスを取るのに役立つ。
最後に、修正的なRAGワークフローで上位設定を再評価し、モデルが追加の証拠を反復的に要求できる場合に、それらの利点が持続することを示す。
我々は,医療における臨床診断支援などの下流タスクパフォーマンスに直接影響を及ぼすアプリケーションにおいて,RAGシステムがハイパーパラメータの適切な組み合わせで極めて高い検索精度を達成できることを実証する,ほぼ完全なコンテキスト精度(99%)を得る。
関連論文リスト
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [1.3450852784287828]
Retrieval-augmented Generation (RAG)は、外部知識を統合することにより、大規模言語モデル(LLM)回答の信頼性を高める。
RAGは、大規模なベクトルデータベースから関連ドキュメントを探すのに計算コストがかかるため、エンドツーエンドの推論時間を増加させる。
本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
論文 参考訳(メタデータ) (2025-03-07T15:54:04Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文 参考訳(メタデータ) (2023-03-09T11:30:40Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。