論文の概要: Never Come Up Empty: Adaptive HyDE Retrieval for Improving LLM Developer Support
- arxiv url: http://arxiv.org/abs/2507.16754v1
- Date: Tue, 22 Jul 2025 16:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.212266
- Title: Never Come Up Empty: Adaptive HyDE Retrieval for Improving LLM Developer Support
- Title(参考訳): Never Come Up Empty: LLM開発者サポートを改善するためのAdaptive HyDE検索
- Authors: Fangjian Lei, Mariam El Mezouar, Shayan Noei, Ying Zou,
- Abstract要約: 我々は,300万以上のJavaおよびPython関連Stack Overflowポストの検索コーパスを構築し,回答を受け付けている。
開発者からの質問に答えるために様々なRAGパイプライン設計を評価し、正確で信頼性の高い応答を生成する上での有効性を評価した。
- 参考スコア(独自算出の注目度): 0.5356944479760103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown promise in assisting developers with code-related questions; however, LLMs carry the risk of generating unreliable answers. To address this, Retrieval-Augmented Generation (RAG) has been proposed to reduce the unreliability (i.e., hallucinations) of LLMs. However, designing effective pipelines remains challenging due to numerous design choices. In this paper, we construct a retrieval corpus of over 3 million Java and Python related Stack Overflow posts with accepted answers, and explore various RAG pipeline designs to answer developer questions, evaluating their effectiveness in generating accurate and reliable responses. More specifically, we (1) design and evaluate 7 different RAG pipelines and 63 pipeline variants to answer questions that have historically similar matches, and (2) address new questions without any close prior matches by automatically lowering the similarity threshold during retrieval, thereby increasing the chance of finding partially relevant context and improving coverage for unseen cases. We find that implementing a RAG pipeline combining hypothetical-documentation-embedding (HyDE) with the full-answer context performs best in retrieving and answering similarcontent for Stack Overflow questions. Finally, we apply our optimal RAG pipeline to 4 open-source LLMs and compare the results to their zero-shot performance. Our findings show that RAG with our optimal RAG pipeline consistently outperforms zero-shot baselines across models, achieving higher scores for helpfulness, correctness, and detail with LLM-as-a-judge. These findings demonstrate that our optimal RAG pipelines robustly enhance answer quality for a wide range of developer queries including both previously seen and novel questions across different LLMs
- Abstract(参考訳): 大きな言語モデル(LLM)は、コード関連の質問を開発者を支援するという約束を示しているが、LLMは信頼性の低い回答を生み出すリスクを負っている。
これを解決するために、LLMの信頼性の低下(幻覚)を抑えるために、RAG(Retrieval-Augmented Generation)が提案されている。
しかし、多くの設計上の選択があるため、効果的なパイプラインの設計は依然として困難である。
本稿では,300万以上のJavaおよびPython関連Stack Overflowポストの検索コーパスを構築し,開発者の質問に答えるために様々なRAGパイプライン設計を探索し,正確で信頼性の高い応答を生成する上での有効性を評価する。
より具体的には、(1)歴史的に類似した質問に答えるために、7種類のRAGパイプラインと63種類のパイプラインを設計・評価し、(2)検索中に類似度閾値を自動的に下げることにより、類似度閾値を自動的に下げることにより、新しい質問に対処する。
仮説文書埋め込み(HyDE)と全回答コンテキストを組み合わせたRAGパイプラインの実装は,Stack Overflowの質問に対して同様の内容の検索と回答に最適であることがわかった。
最後に、最適なRAGパイプラインを4つのオープンソースLCMに適用し、結果をゼロショット性能と比較する。
以上の結果から,最適なRAGパイプラインを用いたRAGは,モデル間でゼロショットベースラインを常に上回り,有効性,正確性,詳細性をLCM-as-a-judgeで達成できることがわかった。
これらの結果から,我々の最適RAGパイプラインは,LLMにまたがる従来と新しい問合せを含む,幅広い開発者クエリに対して,回答品質を確実に向上させることが示唆された。
関連論文リスト
- DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Question Decomposition for Retrieval-Augmented Generation [2.6409776648054764]
本稿では疑問分解をサブクエストに組み込んだRAGパイプラインを提案する。
補間的な文書を効果的に組み立てる一方で、再ランク付けによってノイズが減少することを示す。
再ランク自体は標準的なものであるが、LLMによる質問分解と既製のクロスエンコーダのペアリングは、マルチホップ質問の検索ギャップを橋渡しすることを示す。
論文 参考訳(メタデータ) (2025-07-01T01:01:54Z) - LLM-Assisted Question-Answering on Technical Documents Using Structured Data-Aware Retrieval Augmented Generation [0.432776344138537]
大きな言語モデル(LLM)は自然言語の理解と生成を可能にする。
ファインチューニングは可能なソリューションのひとつだが、リソース集約であり、データ更新毎に繰り返す必要がある。
Retrieval-Augmented Generation (RAG)は、LLMが外部の知識ソースにアクセスできるようにすることにより、効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-29T08:22:03Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - EfficientRAG: Efficient Retriever for Multi-Hop Question Answering [52.64500643247252]
マルチホップ質問応答のための効率的な検索器であるEfficientRAGを紹介する。
実験の結果、EfficientRAGは3つのオープンドメインのマルチホップ質問応答データセット上で既存のRAG手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-08-08T06:57:49Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.581518952488093]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。