論文の概要: AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations
- arxiv url: http://arxiv.org/abs/2603.10524v1
- Date: Wed, 11 Mar 2026 08:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.848049
- Title: AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations
- Title(参考訳): SemEval-2026 Task 8におけるAILS-NTUA:マルチTurn RAG会話の評価
- Authors: Dimosthenis Athanasiou, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou,
- Abstract要約: 我々はSemEval-2026タスク8(MTRAGEval)のためのAILS-NTUAシステムを提案する。
マルチターン検索拡張生成の3つのサブタスク、すなわち、経路検索(A)、基準接地応答生成(B)、エンドツーエンドRAG(C)のすべてに対処する。
統一アーキテクチャは、(i)クエリ-ダイバーシティ-オーバー・レトリバー-ダイバーシティ戦略と(ii)マルチステージ生成パイプラインという2つの原則に基づいて構築されています。
- 参考スコア(独自算出の注目度): 14.20669481486209
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present the AILS-NTUA system for SemEval-2026 Task 8 (MTRAGEval), addressing all three subtasks of multi-turn retrieval-augmented generation: passage retrieval (A), reference-grounded response generation (B), and end-to-end RAG (C). Our unified architecture is built on two principles: (i) a query-diversity-over-retriever-diversity strategy, where five complementary LLM-based query reformulations are issued to a single corpus-aligned sparse retriever and fused via variance-aware nested Reciprocal Rank Fusion; and (ii) a multistage generation pipeline that decomposes grounded generation into evidence span extraction, dual-candidate drafting, and calibrated multi-judge selection. Our system ranks 1st in Task A (nDCG@5: 0.5776, +20.5% over the strongest baseline) and 2nd in Task B (HM: 0.7698). Empirical analysis shows that query diversity over a well-aligned retriever outperforms heterogeneous retriever ensembling, and that answerability calibration-rather than retrieval coverage-is the primary bottleneck in end-to-end performance.
- Abstract(参考訳): 本稿では,SemEval-2026 Task 8(MTRAGEval)のためのAILS-NTUAシステムを提案する。
統一アーキテクチャは2つの原則に基づいて構築されています。
i) 1個のコーパス整列スパースレトリバーに5つの補的LCMに基づくクエリ再構成を発行し、分散対応のネスト付き相互ランクフュージョンを介して融合する、クエリ・ダイバーシティ・オーバー・レトリバー・ダイバーシティ戦略。
(II) 基底生成をエビデンスに分解する多段生成パイプラインで, 抽出, 二重候補起草, 校正マルチジャッジ選択を行う。
本システムでは,第1タスクA(nDCG@5: 0.5776, +20.5%,第2タスクB(HM: 0.7698)にランク付けしている。
実験分析により, 整列型検索器におけるクエリの多様性は不均一な検索器のアンサンブルよりも優れており, 検索カバレッジよりも解答可能性のキャリブレーションは, エンド・ツー・エンドのパフォーマンスの最大のボトルネックであることがわかった。
関連論文リスト
- Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - Reinforcement Fine-Tuning for History-Aware Dense Retriever in RAG [29.46121429194507]
Retrieval-augmented Generation (RAG) は、大規模言語モデルがエビデンスベースの応答を生成することを可能にする。
既存のソリューションは、レトリバー最適化とRAGパイプラインの目標との客観的なミスマッチに悩まされている。
論文 参考訳(メタデータ) (2026-02-03T15:30:14Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SIRAG: Towards Stable and Interpretable RAG with A Process-Supervised Multi-Agent Framework [7.37561751991963]
本稿では,レシーバとジェネレータのギャップを埋めるプロセス管理型マルチエージェントフレームワークを提案する。
提案するフレームワークはモジュール式でプラグアンドプレイで、レトリバーやジェネレータを変更する必要はない。
論文 参考訳(メタデータ) (2025-09-17T09:09:28Z) - MSRS: Evaluating Multi-Source Retrieval-Augmented Generation [51.717139132190574]
多くの現実世界のアプリケーションは、複数のソースにまたがる情報を統合して要約する能力を必要としている。
本稿では、RAGシステムに対して異なるソース間で情報を統合するための評価ベンチマークを構築するためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T14:59:55Z) - RAGentA: Multi-Agent Retrieval-Augmented Generation for Attributed Question Answering [4.224843546370802]
本稿では,大規模言語モデル(LLM)を用いた属性質問応答フレームワークであるRAGentAを提案する。
RAGentAは、信頼できる回答生成の目標として、質問と忠実性に対するカバレッジと関連性によって定義された回答の正しさを最適化することに焦点を当てている。
フレームワークの中心は、スパースと密集したメソッドを組み合わせたハイブリッド検索戦略であり、最高の単一検索モデルと比較して、Recall@20を12.5%改善している。
論文 参考訳(メタデータ) (2025-06-20T13:37:03Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。