Fugu-MT 論文翻訳(概要): Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models

論文の概要: Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models

arxiv url: http://arxiv.org/abs/2506.03989v1
Date: Wed, 04 Jun 2025 14:16:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.373133
Title: Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models
Title（参考訳）: 長期言語モデルを用いた検索拡張生成のためのより強いベースライン
Authors: Alex Laitenberger, Christopher D. Manning, Nelson F. Liu,
Abstract要約: 我々は、DOS RAG(Document's Original Structure RAG)を含む3つのベースラインに対して、最近の2つのマルチステージパイプライン、ReadAgentとRAPTORを比較した。 DOS RAG は、複数の長期コンテキスト QA ベンチマークにおいて、より複雑なメソッドを一貫してマッチングまたは上回る。我々は、DOS RAGを、将来のRAG評価のための単純かつ強力なベースラインとして確立することを推奨する。
参考スコア（独自算出の注目度）: 38.17736879002141
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rise of long-context language models (LMs) capable of processing tens of thousands of tokens in a single pass, do multi-stage retrieval-augmented generation (RAG) pipelines still offer measurable benefits over simpler, single-stage approaches? To assess this question, we conduct a controlled evaluation for QA tasks under systematically scaled token budgets, comparing two recent multi-stage pipelines, ReadAgent and RAPTOR, against three baselines, including DOS RAG (Document's Original Structure RAG), a simple retrieve-then-read method that preserves original passage order. Despite its straightforward design, DOS RAG consistently matches or outperforms more intricate methods on multiple long-context QA benchmarks. We recommend establishing DOS RAG as a simple yet strong baseline for future RAG evaluations, pairing it with emerging embedding and language models to assess trade-offs between complexity and effectiveness as model capabilities evolve.
Abstract（参考訳）: 単一パスで数万のトークンを処理できる長期コンテキスト言語モデル(LM)の台頭により、マルチステージ検索拡張世代(RAG)パイプラインは、単純な単一ステージアプローチよりも測定可能なメリットを提供するのだろうか? この問題を評価するために、我々は、トークン予算を体系的にスケールしたQAタスクについて、DOS RAG(Document's Original Structure RAG)を含む3つのベースラインに対して、最近の2つの多段階パイプライン、ReadAgentとRAPTORを比較し、制御された評価を行う。直感的な設計にもかかわらず、DOS RAGは複数の長いコンテキストのQAベンチマークにおいて、より複雑なメソッドを一貫してマッチングまたは上回る。我々は、DOS RAGを将来のRAG評価のためのシンプルで強力なベースラインとして確立し、それを新たな埋め込みと言語モデルと組み合わせて、モデルの能力が進化するにつれて複雑さと有効性の間のトレードオフを評価することを推奨する。

関連論文リスト

HIRAG: Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation [9.175609521889266]
我々は、新しいRAG命令微調整手法、階層型命令-調整型検索生成(HIRAG)を導入する。この方法は,多段階のプログレッシブ・チェーン・オブ・シントを利用して,モデルのオープンブック検査能力を向上させる。実験によると、HIRAGトレーニング戦略は、RGB、PopQA、MuSiQue、HotpotQA、PubmedQAといったデータセット上でのモデルのパフォーマンスを大幅に改善する。
論文参考訳（メタデータ） (2025-07-08T06:53:28Z)
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [70.01883340129204]
シングルパス。リファレンスガイドによる評価(SPARE) 参照ソリューションにおける各ソリューションステップを1つまたは複数のステップにアライメントすることで、単一のパス毎のアノテーションを可能にする新しい構造化フレームワーク。 SPAREは2.6倍の効率を実現し、実行時の38%しか必要としない。
論文参考訳（メタデータ） (2025-06-18T14:37:59Z)
KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。 20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文参考訳（メタデータ） (2025-05-18T16:46:39Z)
Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-04-15T17:35:56Z)
Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文参考訳（メタデータ） (2025-02-18T02:49:40Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。 RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文参考訳（メタデータ） (2024-07-19T17:35:47Z)
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文参考訳（メタデータ） (2024-07-01T09:09:27Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)
Conversational Question Reformulation via Sequence-to-Sequence Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文参考訳（メタデータ） (2020-04-04T11:07:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。