Fugu-MT 論文翻訳(概要): MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations

論文の概要: MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations

arxiv url: http://arxiv.org/abs/2602.23184v1
Date: Thu, 26 Feb 2026 16:41:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.782499
Title: MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations
Title（参考訳）: MTRAG-UN:マルチスレッドRAG会話におけるオープンチャレンジのベンチマーク
Authors: Sara Rosenthal, Yannis Katsis, Vraj Shah, Lihong He, Lucian Popa, Marina Danilevsky,
Abstract要約: コーパスを伴う6つのドメインにわたる2,800以上の会話ターンを含む666タスクのベンチマークをリリースする。実験の結果,検索モデルと生成モデルは,Unanswerable,Underspecified,NONstandalone質問やUnclear応答との会話に苦慮し続けていることがわかった。
参考スコア（独自算出の注目度）: 11.752769691113862
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present MTRAG-UN, a benchmark for exploring open challenges in multi-turn retrieval augmented generation, a popular use of large language models. We release a benchmark of 666 tasks containing over 2,800 conversation turns across 6 domains with accompanying corpora. Our experiments show that retrieval and generation models continue to struggle on conversations with UNanswerable, UNderspecified, and NONstandalone questions and UNclear responses. Our benchmark is available at https://github.com/IBM/mt-rag-benchmark
Abstract（参考訳）: 本稿では,MTRAG-UNについて述べる。MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN,MTRAG-UN。コーパスを伴う6つのドメインにわたる2,800以上の会話ターンを含む666タスクのベンチマークをリリースする。実験の結果,検索モデルと生成モデルは,Unanswerable,Underspecified,NONstandalone質問やUnclear応答との会話に苦慮し続けていることがわかった。ベンチマークはhttps://github.com/IBM/mt-rag-benchmarkで公開しています。

関連論文リスト

One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-05T14:39:59Z)
Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文参考訳（メタデータ） (2025-08-25T15:38:56Z)
MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents [107.45764251915062]
MoNaCoは、1,315の自然で時間のかかる質問のベンチマークで、解決には数十、数百の中間ステップが必要になる。実世界の時間的問題に手動で答える,分解されたアノテーションパイプラインを開発した。実世界の情報検索作業の複雑さと多様さに対処するLLMエージェントの限界について検討した。
論文参考訳（メタデータ） (2025-08-15T00:58:10Z)
MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。 MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文参考訳（メタデータ） (2025-02-19T10:13:43Z)
MTRAG: A Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation Systems [21.554151870748104]
MTRAG: エンドツーエンドのヒューマン生成マルチターンRAGベンチマークを提案する。完全なRAGパイプラインを評価するために、さまざまな次元にまたがる現実世界のいくつかの特性を反映している。我々の評価では、最先端のLLM RAGシステムでさえMTRAGに苦戦している。
論文参考訳（メタデータ） (2025-01-07T01:52:56Z)
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
OCRBench v2は、大規模なバイリンガルテキスト中心のベンチマークである。さまざまなシナリオ31、人間検証された質問回答ペア1万、詳細な評価指標をカバーしている。 LMMのスコアは50未満(合計100点)で、5種類の制限に悩まされている。
論文参考訳（メタデータ） (2024-12-31T07:32:35Z)
Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文参考訳（メタデータ） (2024-09-30T12:01:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。