論文の概要: Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2506.03989v1
- Date: Wed, 04 Jun 2025 14:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.373133
- Title: Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models
- Title(参考訳): 長期言語モデルを用いた検索拡張生成のためのより強いベースライン
- Authors: Alex Laitenberger, Christopher D. Manning, Nelson F. Liu,
- Abstract要約: 我々は、DOS RAG(Document's Original Structure RAG)を含む3つのベースラインに対して、最近の2つのマルチステージパイプライン、ReadAgentとRAPTORを比較した。
DOS RAG は、複数の長期コンテキスト QA ベンチマークにおいて、より複雑なメソッドを一貫してマッチングまたは上回る。
我々は、DOS RAGを、将来のRAG評価のための単純かつ強力なベースラインとして確立することを推奨する。
- 参考スコア(独自算出の注目度): 38.17736879002141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of long-context language models (LMs) capable of processing tens of thousands of tokens in a single pass, do multi-stage retrieval-augmented generation (RAG) pipelines still offer measurable benefits over simpler, single-stage approaches? To assess this question, we conduct a controlled evaluation for QA tasks under systematically scaled token budgets, comparing two recent multi-stage pipelines, ReadAgent and RAPTOR, against three baselines, including DOS RAG (Document's Original Structure RAG), a simple retrieve-then-read method that preserves original passage order. Despite its straightforward design, DOS RAG consistently matches or outperforms more intricate methods on multiple long-context QA benchmarks. We recommend establishing DOS RAG as a simple yet strong baseline for future RAG evaluations, pairing it with emerging embedding and language models to assess trade-offs between complexity and effectiveness as model capabilities evolve.
- Abstract(参考訳): 単一パスで数万のトークンを処理できる長期コンテキスト言語モデル(LM)の台頭により、マルチステージ検索拡張世代(RAG)パイプラインは、単純な単一ステージアプローチよりも測定可能なメリットを提供するのだろうか?
この問題を評価するために、我々は、トークン予算を体系的にスケールしたQAタスクについて、DOS RAG(Document's Original Structure RAG)を含む3つのベースラインに対して、最近の2つの多段階パイプライン、ReadAgentとRAPTORを比較し、制御された評価を行う。
直感的な設計にもかかわらず、DOS RAGは複数の長いコンテキストのQAベンチマークにおいて、より複雑なメソッドを一貫してマッチングまたは上回る。
我々は、DOS RAGを将来のRAG評価のためのシンプルで強力なベースラインとして確立し、それを新たな埋め込みと言語モデルと組み合わせて、モデルの能力が進化するにつれて複雑さと有効性の間のトレードオフを評価することを推奨する。
関連論文リスト
- KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。
20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。
我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文 参考訳(メタデータ) (2025-05-18T16:46:39Z) - Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。
我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文 参考訳(メタデータ) (2025-02-18T02:49:40Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。