論文の概要: MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations
- arxiv url: http://arxiv.org/abs/2602.23184v1
- Date: Thu, 26 Feb 2026 16:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.782499
- Title: MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations
- Title(参考訳): MTRAG-UN:マルチスレッドRAG会話におけるオープンチャレンジのベンチマーク
- Authors: Sara Rosenthal, Yannis Katsis, Vraj Shah, Lihong He, Lucian Popa, Marina Danilevsky,
- Abstract要約: コーパスを伴う6つのドメインにわたる2,800以上の会話ターンを含む666タスクのベンチマークをリリースする。
実験の結果,検索モデルと生成モデルは,Unanswerable,Underspecified,NONstandalone質問やUnclear応答との会話に苦慮し続けていることがわかった。
- 参考スコア(独自算出の注目度): 11.752769691113862
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present MTRAG-UN, a benchmark for exploring open challenges in multi-turn retrieval augmented generation, a popular use of large language models. We release a benchmark of 666 tasks containing over 2,800 conversation turns across 6 domains with accompanying corpora. Our experiments show that retrieval and generation models continue to struggle on conversations with UNanswerable, UNderspecified, and NONstandalone questions and UNclear responses. Our benchmark is available at https://github.com/IBM/mt-rag-benchmark
- Abstract(参考訳): 本稿では,MTRAG-UNについて述べる。MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN。
コーパスを伴う6つのドメインにわたる2,800以上の会話ターンを含む666タスクのベンチマークをリリースする。
実験の結果,検索モデルと生成モデルは,Unanswerable,Underspecified,NONstandalone質問やUnclear応答との会話に苦慮し続けていることがわかった。
ベンチマークはhttps://github.com/IBM/mt-rag-benchmarkで公開しています。
関連論文リスト
- One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents [107.45764251915062]
MoNaCoは、1,315の自然で時間のかかる質問のベンチマークで、解決には数十、数百の中間ステップが必要になる。
実世界の時間的問題に手動で答える,分解されたアノテーションパイプラインを開発した。
実世界の情報検索作業の複雑さと多様さに対処するLLMエージェントの限界について検討した。
論文 参考訳(メタデータ) (2025-08-15T00:58:10Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - MTRAG: A Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation Systems [21.554151870748104]
MTRAG: エンドツーエンドのヒューマン生成マルチターンRAGベンチマークを提案する。
完全なRAGパイプラインを評価するために、さまざまな次元にまたがる現実世界のいくつかの特性を反映している。
我々の評価では、最先端のLLM RAGシステムでさえMTRAGに苦戦している。
論文 参考訳(メタデータ) (2025-01-07T01:52:56Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。