論文の概要: Vector RAG vs LLM-Compiled Wiki: A Preregistered Comparison on a Small Multi-Domain Research
- arxiv url: http://arxiv.org/abs/2605.18490v1
- Date: Mon, 18 May 2026 14:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.801396
- Title: Vector RAG vs LLM-Compiled Wiki: A Preregistered Comparison on a Small Multi-Domain Research
- Title(参考訳): ベクトルRAG vs LLM-Compiled Wiki: 小規模なマルチドメイン研究における事前登録の比較
- Authors: Theodore O. Cochran,
- Abstract要約: シングルラウンドベクトルRAGシステムとLCMコンパイルされたマークダウンwikiを比較した。
どちらのシステムも、同じ回答生成モデルを使用して、24の論文で同じ13の質問に答えた。
wikiは、論文間の発見を繋ぐのがはるかに優れているが、回答組織におけるその優位性は、審査の調整後に強くなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We preregistered a comparison of two ways to help an LLM answer questions over a small research corpus: a single-round Vector RAG system and an LLM-compiled markdown wiki. Both systems answered the same 13 questions over 24 papers using the same answer-generating model, and their answers were scored by blinded LLM judges. The wiki scored much better at connecting findings across papers, but its advantage in answer organization was not strong after judge adjustment. RAG met the preregistered test for single-fact lookup questions. The clean query-side cost result went against the expected wiki advantage: under the tested setup, the wiki used far more query tokens than RAG, so it could not recover any upfront build cost through cheaper queries. Two exploratory analyses changed how we interpret the result. First, claim-level citation checking favored the wiki: its cited pages more often supported the exact claims being made, even though RAG scored better on the overall groundedness rubric. Second, a decomposition-based RAG variant recovered most of the wiki's advantage on cross-paper synthesis at lower LLM-token cost, but it did not recover the wiki advantage in claim-by-claim citation support. The main conclusion is that grounded research synthesis is not a single capability. Systems can differ in how well they organize evidence, how well their citations support each claim, and how much they cost to run. In this study, no architecture was best on all three.
- Abstract(参考訳): 単ラウンドベクターRAGシステムとLCMコンパイルしたマークダウンwikiという,小さな研究コーパスに対して,LCMが回答する2つの方法の比較を行った。
どちらのシステムも、同じ回答生成モデルを用いて24の論文で同じ13の質問に回答し、その回答は盲目のLLM審査員によって得られた。
wikiは、論文間の発見を繋ぐのがはるかに優れているが、回答組織におけるその優位性は、審査の調整後に強くなかった。
RAGは、シングルファクトのルックアップ質問のために事前登録されたテストに合格した。
テストされたセットアップでは、wikiはRAGよりもはるかに多くのクエリトークンを使用していたため、より安価なクエリを通じて事前ビルドコストを回復できなかった。
2つの探索分析が結果の解釈方法を変えた。
まず、クレームレベルの引用チェックはwikiを好んだ:その引用ページは、RAGが全体的な根拠の曖昧さをより良く評価したにもかかわらず、正確なクレームをしばしば支持した。
第二に、分解に基づくRAG変種は、低lLMコストで横断紙合成におけるウィキの利点のほとんどを回復したが、クレーム・バイ・クレームの引用サポートにおいてウィキの優位性は回復しなかった。
主な結論は、基礎研究合成は単一の能力ではないということである。
システムは、証拠の整理方法、引用がそれぞれのクレームをどれだけうまくサポートしているか、実行にどれだけの費用がかかるかによって異なる可能性がある。
本研究では,3つすべてにおいてアーキテクチャが最善であった。
関連論文リスト
- PAR$^2$-RAG: Planned Active Retrieval and Reasoning for Multi-Hop Question Answering [57.89576196160413]
大規模言語モデル (LLM) はマルチホップ質問応答 (MHQA) において脆弱のままである。
textbfPlanned Active Retrieval and Reasoning RAG (PAR$2-RAG)を提案する。
論文 参考訳(メタデータ) (2026-03-30T23:52:54Z) - CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering [15.281365738928415]
既存のマルチホップRAGシステムは、各ステップで検索と推論を交互に行う。
オンライン推論からオフラインコーパス再構成を分離するフレームワークであるCompactRAGを提案する。
HotpotQA, 2WikiMultiHopQA, MuSiQue の実験では, CompactRAG がトークン消費を大幅に削減し,競争精度を向上することを示した。
論文 参考訳(メタデータ) (2026-02-05T14:52:06Z) - Citation Failure: Definition, Analysis and Efficient Mitigation [56.09968229868067]
LLMベースのRAGシステムからの引用は、応答検証の簡略化を目的としている。
これは、モデルが有効な応答を生成するとき、引用失敗には当てはまらないが、完全な証拠を引用することができない。
応答自体に欠陥があり、完全な証拠を引用することは不可能である。
論文 参考訳(メタデータ) (2025-10-23T07:47:22Z) - Question Decomposition for Retrieval-Augmented Generation [2.6409776648054764]
本稿では疑問分解をサブクエストに組み込んだRAGパイプラインを提案する。
補間的な文書を効果的に組み立てる一方で、再ランク付けによってノイズが減少することを示す。
再ランク自体は標準的なものであるが、LLMによる質問分解と既製のクロスエンコーダのペアリングは、マルチホップ質問の検索ギャップを橋渡しすることを示す。
論文 参考訳(メタデータ) (2025-07-01T01:01:54Z) - R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [60.17074283370798]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文 参考訳(メタデータ) (2025-05-26T12:25:37Z) - Evidence Contextualization and Counterfactual Attribution for Conversational QA over Heterogeneous Data with RAG Systems [4.143039012104666]
Retrieval Augmented Generation(RAG)は、会話質問回答(ConvQA)を介して企業のデータと対話するためのバックボーンとして機能する。
本研究では,RAGONITE(RAGONITE,RAGONITE,RAGONITE,RAGONITE,RAAG,RAGONITE,RAGONITE,RAGONITE,RAGONITE,RAAG,RAGONITE ,RAGONITE,RAGONITE,RAGONITE,RAAG,RAGONITE,RAGONITE,RAGONITE,RAGONITE,RAGONITE,RAGONITE,RAGONITE,RAGO NITE)について述べる。
論文 参考訳(メタデータ) (2024-12-13T21:28:17Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。