論文の概要: TopClustRAG at SIGIR 2025 LiveRAG Challenge
- arxiv url: http://arxiv.org/abs/2506.15246v1
- Date: Wed, 18 Jun 2025 08:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.591304
- Title: TopClustRAG at SIGIR 2025 LiveRAG Challenge
- Title(参考訳): TopClustRAG - SIGIR 2025 LiveRAG Challenge
- Authors: Juli Bakagianni, John Pavlopoulos, Aristidis Likas,
- Abstract要約: TopClustRAGは、LiveRAG Challengeのために開発された検索拡張世代(RAG)システムである。
本システムでは,疎度指数と密度指数を組み合わせたハイブリッド検索手法を用いて,K-Meansクラスタリングを行い,意味論的に類似した経路をグループ化する。
- 参考スコア(独自算出の注目度): 2.56711111236449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TopClustRAG, a retrieval-augmented generation (RAG) system developed for the LiveRAG Challenge, which evaluates end-to-end question answering over large-scale web corpora. Our system employs a hybrid retrieval strategy combining sparse and dense indices, followed by K-Means clustering to group semantically similar passages. Representative passages from each cluster are used to construct cluster-specific prompts for a large language model (LLM), generating intermediate answers that are filtered, reranked, and finally synthesized into a single, comprehensive response. This multi-stage pipeline enhances answer diversity, relevance, and faithfulness to retrieved evidence. Evaluated on the FineWeb Sample-10BT dataset, TopClustRAG ranked 2nd in faithfulness and 7th in correctness on the official leaderboard, demonstrating the effectiveness of clustering-based context filtering and prompt aggregation in large-scale RAG systems.
- Abstract(参考訳): 我々はLiveRAG Challengeのために開発された検索拡張世代(RAG)システムであるTopClustRAGについて述べる。
本システムでは,疎度指数と密度指数を組み合わせたハイブリッド検索手法を用いて,K-Meansクラスタリングを行い,意味論的に類似した経路をグループ化する。
各クラスタからの代表的なパスは、大きな言語モデル(LLM)のためのクラスタ固有のプロンプトを構築するために使用され、中間回答を生成し、フィルタリングされ、再帰され、最終的に単一の包括的な応答に合成される。
この多段階パイプラインは、得られた証拠に対する回答の多様性、妥当性、忠実性を高める。
FineWeb Sample-10BTデータセットに基づいて、TopClustRAGは公式のリーダーボード上で2番目に忠実さと7番目に正確さをランク付けし、クラスタリングベースのコンテキストフィルタリングの有効性と大規模RAGシステムでの迅速なアグリゲーションを実証した。
関連論文リスト
- CIIR@LiveRAG 2025: Optimizing Multi-Agent Retrieval Augmented Generation through Self-Training [18.787703082459046]
mRAGは、計画、探索、推論、調整などのサブタスクに特化したエージェントで構成されるマルチエージェント検索拡張生成フレームワークである。
SIGIR 2025 LiveRAGコンペティションでDataMorgana由来のデータセットを評価すると、mRAGは従来のRAGベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-12T16:02:29Z) - DeepRAG: Integrating Hierarchical Reasoning and Process Supervision for Biomedical Multi-Hop QA [18.943813768298188]
DeepRAGは、DeepSeekの階層的質問分解機能をRAG Gymに統合する新しいフレームワークである。
MedHopQAデータセットの予備評価によると、DeepRAGはスタンドアロンのDeepSeekやRAG Gymといったベースラインモデルよりも優れており、Exact Matchと概念レベルの正確性の両方において顕著に改善されている。
論文 参考訳(メタデータ) (2025-05-31T18:52:05Z) - On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems [5.69361786082969]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の拡張手法として登場した。
我々は,様々なコンテキストサイズ,BM25,セマンティック検索を検索として評価し,8つの基本LLMについて検討した。
以上の結果から, 最終QA成績は最大15スニペットで着実に改善するが, 停滞あるいは低下がみられた。
論文 参考訳(メタデータ) (2025-02-20T17:34:34Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。
コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。
対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文 参考訳(メタデータ) (2024-10-30T15:06:32Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - GUESR: A Global Unsupervised Data-Enhancement with Bucket-Cluster
Sampling for Sequential Recommendation [58.6450834556133]
本研究では,グローバルな視点から複雑な関連性を持つ項目表現を強化するために,グラフコントラスト学習を提案する。
本稿では,CapsNetモジュールを拡張したターゲットアテンション機構により,ユーザの動的嗜好を導出する。
提案したGUESRは,大幅な改善を達成できただけでなく,汎用的な拡張戦略ともみなすことができた。
論文 参考訳(メタデータ) (2023-03-01T05:46:36Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。