論文の概要: Analyzing Quality-Latency-Resource Trade-offs in a Technical Documentation RAG Assistant Using LoRA Adaptation
- arxiv url: http://arxiv.org/abs/2605.28222v1
- Date: Wed, 27 May 2026 09:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.937953
- Title: Analyzing Quality-Latency-Resource Trade-offs in a Technical Documentation RAG Assistant Using LoRA Adaptation
- Title(参考訳): LoRA適応を用いたテクニカルドキュメンテーションRAGアシスタントの品質・レイテンシ・リソーストレードオフの解析
- Authors: Evgenii Palnikov, Elizaveta Gavrilova,
- Abstract要約: 発電機のローランド適応(LoRA)を用いた検索拡張世代(RAG)システムにおける品質-遅延-リソーストレードオフについて検討する。
公式文書上で5,144の質問応答ペアのベンチマークを構築し、それを固定されたハイブリッド検索パイプライン(BGE-M3高密度、BGE-M3ネイティブ、Reciprocal Rank Fusion、クロスエンコーダ更新)と組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study quality-latency-resource trade-offs in a documentation-grounded retrieval-augmented generation (RAG) system that uses Low-Rank Adaptation (LoRA) of the generator. We build a manually verified benchmark of 5,144 question-answer pairs over the official Kubernetes documentation and combine it with a fixed hybrid-retrieval pipeline (BGE-M3 dense, BGE-M3 native sparse, Reciprocal Rank Fusion, cross-encoder reranking). Over this benchmark we ablate 20 LoRA configurations on Llama-3.2-3B-Instruct and Llama-3.1-8B-Instruct across rank and target-module choices, and evaluate each on token-level F1, LLM-judged groundedness and correctness (pass@4), inference latency, inference memory, and training cost, all reported with bootstrap 95% confidence intervals. Pareto analysis shows that LoRA adapters acting only on the q and v attention projections consistently dominate the front, while the 3B/8B choice mainly defines operating regime. A param-matched control comparison further indicates that the q/v advantage is structural rather than purely parametric. The benchmark, selected adapters, and code are available at https://github.com/EugPal/rag-lora-tradeoffs.
- Abstract(参考訳): 本稿では,ローランク適応 (LoRA) を用いた文書検索拡張生成システム (RAG) における品質-遅延-リソーストレードオフについて検討する。
公式のKubernetesドキュメントに5,144の問合せペアを手動で検証したベンチマークを構築し、それを固定されたハイブリッド検索パイプライン(BGE-M3高密度、BGE-M3ネイティブスパース、Reciprocal Rank Fusion、クロスエンコーダリランク)と組み合わせています。
このベンチマークでは、Llama-3.2-3B-InstructとLlama-3.1-8B-Instructの20のLORA構成をランクとターゲットモジュールの選択で比較し、トークンレベルF1、LLM-judgedの基底性と正確性(pass@4)、推論レイテンシ、推論メモリ、トレーニングコストをそれぞれ、ブートストラップ95%の信頼区間でレポートした。
Pareto解析によると、LoRAアダプタはqとvのアテンションプロジェクションのみに作用するが、3B/8Bはオペレーショナルレジームを主に定義している。
パラム整合制御比較により、q/vの優位性は純粋にパラメトリックではなく構造的であることが示された。
ベンチマーク、選択されたアダプタ、コードはhttps://github.com/EugPal/rag-lora-tradeoffsで公開されている。
関連論文リスト
- Unsolvability Ceiling in Multi-LLM Routing: An Empirical Study of Evaluation Artifacts [0.07812854697536452]
6つのベンチマークで206,000のクエリモデルペアを持つマルチ層LSMルーティングについて大規模に検討する。
報告された未解決性のかなりの部分は, 評価成果物に起因していることが示されている。
論文 参考訳(メタデータ) (2026-05-08T07:49:24Z) - MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval [37.54115468116941]
本報告では,Qwen3-Reranker を用いた多段 LLM 知識蒸留によるリグレードモデルファミリ MemReranker (0.6B/4B) について紹介する。
メモリ検索ベンチマークでは、MemReranker-0.6BはBGE-Rerankerを大きく上回り、オープンソースの4B/8BモデルとGPT-4o-miniをキーメトリクスでマッチングする。
MemReranker-4B はさらに 0.737 MAP を達成し、Gemini-3-Flash と同等のメトリクスを持つ一方で、推論遅延を10-20%の大型モデルで維持している。
論文 参考訳(メタデータ) (2026-05-07T12:33:57Z) - SCALE-LoRA: Auditing Post-Retrieval LoRA Composition with Residual Merging and View Reliability [2.9388795721577328]
低ランク適応(LoRA)アダプタはパラメータ効率適応の実用的な副産物になりつつある。
オープンプール LoRA 再利用のための監査・構成フレームワークである Sparse-Composition Agreement Layer (SCALE) を導入する。
実験項目では,詳細なスコア,ペア監査,パスコスト記録が報告されている。
論文 参考訳(メタデータ) (2026-05-02T13:00:05Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - HypeLoRA: Hyper-Network-Generated LoRA Adapters for Calibrated Language Model Fine-Tuning [0.0]
現代のトランスフォーマーベースのモデルは、しばしば誤校正に悩まされ、真の経験周波数を反映しない自信過剰な予測を生み出す。
本研究は,LoRAのキャリブレーション・ダイナミクスであるローランド適応と,新しいハイパーネットワーク・アダプティブ・フレームワークについて検討する。
論文 参考訳(メタデータ) (2026-03-01T15:53:49Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - DeAR: Dual-Stage Document Reranking with Reasoning Agents via LLM Distillation [26.719288314007002]
大規模言語モデル(LLM)は、候補集合に対する大域的推論を可能にすることで、リストワイズドキュメントの優先順位を変更している。
textbfDeeptextbfAgenttextbfRank(textbfDeAR)を提案する。
論文 参考訳(メタデータ) (2025-08-23T11:46:08Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。