論文の概要: Evaluation of retrieval-based QA on QUEST-LOFT
- arxiv url: http://arxiv.org/abs/2511.06125v1
- Date: Sat, 08 Nov 2025 20:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.769306
- Title: Evaluation of retrieval-based QA on QUEST-LOFT
- Title(参考訳): QUEST-LOFTを用いた検索に基づくQAの評価
- Authors: Nathan Scales, Nathanael Schärli, Olivier Bousquet,
- Abstract要約: 本稿では,QUEST-LOFTの性能低下に寄与する要因を詳細に分析する。
我々は,RAGが論理とエビデンスを含む構造化出力形式と組み合わせることで,長文のアプローチを著しく上回るように最適化可能であることを示す。
- 参考スコア(独自算出の注目度): 7.2375213888360586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the popularity of retrieval-augmented generation (RAG) as a solution for grounded QA in both academia and industry, current RAG methods struggle with questions where the necessary information is distributed across many documents or where retrieval needs to be combined with complex reasoning. Recently, the LOFT study has shown that this limitation also applies to approaches based on long-context language models, with the QUEST benchmark exhibiting particularly large headroom. In this paper, we provide an in-depth analysis of the factors contributing to the poor performance on QUEST-LOFT, publish updated numbers based on a thorough human evaluation, and demonstrate that RAG can be optimized to significantly outperform long-context approaches when combined with a structured output format containing reasoning and evidence, optionally followed by answer re-verification.
- Abstract(参考訳): 学術・産業両分野における基礎QAソリューションとしての検索強化世代(RAG)の人気にもかかわらず、現在のRAG手法は、必要な情報が多くの文書に分散されているか、複雑な推論と組み合わせなければならないかという問題に苦慮している。
近年,この制限は長文言語モデルに基づくアプローチにも適用され,QUESTベンチマークでは特に大きなヘッドルームが示されている。
本稿では,QUEST-LOFTの性能低下に寄与する要因を詳細に分析し,詳細な人的評価に基づいて更新された数値を公開し,推論とエビデンスを含む構造化出力形式と組み合わせた場合,RAGが長文アプローチを大幅に上回るように最適化可能であることを実証する。
関連論文リスト
- Retro*: Optimizing LLMs for Reasoning-Intensive Document Retrieval [44.680580989270965]
Retro*は、推論集約的なドキュメント検索のための新しいアプローチである。
本稿では,タスクとドキュメントの関係をモデルが推論できる,ルーブリックに基づく関連性スコアリング機構を提案する。
実験の結果,Retro* は既存の文書検索手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-09-29T14:53:05Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems [6.762635083456022]
RAGに基づくシステムにおいて,エンティティコアが文書検索と生成性能にどのように影響するかを検討する。
コア参照の解決により検索効率が向上し,質問応答性能(QA)が向上することが実証された。
本研究の目的は、知識集約型AIアプリケーションにおける検索と生成を改善するためのガイダンスを提供することである。
論文 参考訳(メタデータ) (2025-07-10T15:26:59Z) - Controlled Retrieval-augmented Context Evaluation for Long-form RAG [58.14561461943611]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得したコンテキストを組み込むことで、大規模言語モデルを強化する。
我々は、レポート生成のような長期RAGタスクにおいて、包括的な検索強化コンテキストを提供することが重要であると論じる。
本稿では,検索拡張コンテキストを直接評価するフレームワークであるCRUXを紹介する。
論文 参考訳(メタデータ) (2025-06-24T23:17:48Z) - Retrieval-Augmented Generation: A Comprehensive Survey of Architectures, Enhancements, and Robustness Frontiers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルを強化するための強力なパラダイムとして登場した。
RAGは、検索品質、基底忠実度、パイプライン効率、ノイズや逆入力に対する堅牢性といった新しい課題を導入している。
本調査は、RAG研究における現在の知識を集約し、次世代の検索強化言語モデリングシステムの基礎となることを目的としている。
論文 参考訳(メタデータ) (2025-05-28T22:57:04Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - A Survey of Query Optimization in Large Language Models [10.255235456427037]
RAGは、動的に検索し、最新の関連情報を活用することによって、大規模言語モデルの限界を緩和する。
QOは重要な要素として現れ、RAGの検索段階の有効性を決定する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-12-23T13:26:04Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。