論文の概要: MTR-Suite: A Framework for Evaluating and Synthesizing Conversational Retrieval Benchmarks
- arxiv url: http://arxiv.org/abs/2605.20729v1
- Date: Wed, 20 May 2026 05:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.494894
- Title: MTR-Suite: A Framework for Evaluating and Synthesizing Conversational Retrieval Benchmarks
- Title(参考訳): MTR-Suite: 会話検索ベンチマークの評価と合成のためのフレームワーク
- Authors: Junhao Ruan, Abudukeyumu Abudula, Bei Li, Yongjing Yin, Xinyu Liu, Kechen Jiao, Xin Chen, Jingang Wang, Xunliang Cai, Tong Xiao, Jingbo Zhu,
- Abstract要約: MTR-Suiteは、監査、合成、ベンチマーク検索のための統合されたフレームワークである。
1)従来のベンチマークでアライメントギャップを定量化するためのLCMベースの監査装置であるMTR-Eval,(2)グリーディクラスタリングを用いたマルチエージェントシステムであるMTR-Pipeline,(3)厳格な一般ベンチマークであるMTR-Benchなどが特徴である。
- 参考スコア(独自算出の注目度): 68.78064578688809
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate evaluation of conversational retrieval is pivotal for advancing Retrieval-Augmented Generation (RAG) systems. However, existing conversational retrieval benchmarks suffer from costly, sparse human annotation or rigid, unnatural automated heuristics. To address these challenges, we introduce MTR-Suite, a unified framework for auditing, synthesizing, and benchmarking retrieval. It features: (1) MTR-Eval, an LLM-based auditor quantifying alignment gaps in previous benchmarks; (2) MTR-Pipeline, a multi-agent system using greedy traversal clustering to generate high-fidelity dialogues at 1/400th human cost; and (3) MTR-Bench, a rigorous general-domain benchmark. MTR-Bench mimics production-style challenges (hard topic switching, verbosity), offering superior discriminative power. We make our code and data publicly available to facilitate future research at https://github.com/rangehow/mtr-suite.
- Abstract(参考訳): RAG(Retrieval-Augmented Generation)システムにおいて,会話検索の正確な評価が重要である。
しかし、既存の対話型検索ベンチマークは、費用がかかる、まばらな人間のアノテーションや、厳格で非自然的な自動ヒューリスティックに悩まされている。
これらの課題に対処するため、我々は監査、合成、ベンチマーク検索のための統合されたフレームワークであるMTR-Suiteを紹介した。
1)従来のベンチマークでアライメントギャップを定量化するためのLCMベースの監査装置であるMTR-Eval,(2)グレディ・トラバーサル・クラスタリングを用いたマルチエージェントシステムであるMTR-Pipeline,(3)厳格な汎用ドメイン・ベンチマークであるMTR-Benchなどが特徴である。
MTR-Benchは、生産スタイルの課題(ハードトピックスイッチング、冗長性)を模倣し、優れた差別力を提供します。
コードとデータを公開して、https://github.com/rangehow/mtr-suite.comで将来の研究を促進する。
関連論文リスト
- Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文 参考訳(メタデータ) (2025-10-13T21:38:04Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。
現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。
我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-23T16:14:08Z) - Shifting from Ranking to Set Selection for Retrieval Augmented Generation [16.374737228461125]
Retrieval-Augmented Generationの検索は、検索されたパスが個々の関連性だけでなく、集合的に包括的な集合を形成することを保証する必要がある。
提案手法はSETRを導入し,Chain-of-Thought推論によるクエリの情報要求を明確に識別する。
マルチホップRAGベンチマークの実験では、SETRはLLMベースのリランカーとオープンソースのベースラインの両方を、回答の正しさと検索品質で上回っている。
論文 参考訳(メタデータ) (2025-07-09T13:35:36Z) - MTRAG: A Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation Systems [21.554151870748104]
MTRAG: エンドツーエンドのヒューマン生成マルチターンRAGベンチマークを提案する。
完全なRAGパイプラインを評価するために、さまざまな次元にまたがる現実世界のいくつかの特性を反映している。
我々の評価では、最先端のLLM RAGシステムでさえMTRAGに苦戦している。
論文 参考訳(メタデータ) (2025-01-07T01:52:56Z) - ACCORD: Closing the Commonsense Measurability Gap [16.572584339052753]
ACCORDは、大規模言語モデル(LLM)の共通理解基盤と推論能力の分離のためのフレームワークである
形式的要素をコモンセンス推論に導入し、典型的な 1 または 2 ホップを超えて、推論の複雑さを明示的に制御し、定量化する。
任意の推論複雑性のベンチマークを自動的に生成するので、将来のLLMの改善に合わせてスケールすることができる。
論文 参考訳(メタデータ) (2024-06-04T22:08:24Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。