論文の概要: MIRA: An LLM-Assisted Benchmark for Multi-Category Integrated Retrieval
- arxiv url: http://arxiv.org/abs/2605.11254v1
- Date: Mon, 11 May 2026 21:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.437422
- Title: MIRA: An LLM-Assisted Benchmark for Multi-Category Integrated Retrieval
- Title(参考訳): MIRA:マルチカテゴリ統合検索のためのLLM支援ベンチマーク
- Authors: Mehmet Deniz Türkmen, Suchana Datta, Dwaipayan Roy, Daniel Hienert, Philipp Mayr, Derek Greene,
- Abstract要約: MIRAは、大規模社会科学検索プラットフォームに基づく新しいベンチマークである。
異種カテゴリーにまたがるカテゴリーを意識してランク付けするように設計されている。
4つの異なるカテゴリの学術的項目をカバーし、多面的評価を可能にする。
- 参考スコア(独自算出の注目度): 7.510578759254574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Users increasingly expect modern search systems to offer a unified interface that seamlessly retrieves information from diverse data sources and formats. However, current information retrieval (IR) evaluation benchmarks have not kept pace with this development, primarily due to the lack of test collections that represent the diversity of contemporary search domains. We address this critical gap with MIRA, a novel benchmark based on a large-scale social science search platform. MIRA is designed for category-aware ranking across heterogeneous categories - Publications, Research Data, Variables, and Instruments & Tools - within a single, unified evaluation framework. The proposed collection is distinctive in several ways: (1) it is built upon real user queries, providing a more realistic basis for evaluation; (2) it covers scholarly items from four distinct categories, enabling multi-faceted evaluation; and (3) it leverages a Large Language Model to generate topic descriptions and narratives, as well as for relevance assessment with respect to these topics, substantially reducing the labor and cost of test collection generation. We release this resource to benefit the community by providing a foundational testbed for the research on multi-faceted, category-aware, integrated, or cross-category information retrieval.
- Abstract(参考訳): ユーザは、多様なデータソースやフォーマットから情報をシームレスに取得する統一されたインターフェースを、現代的な検索システムに提供することを、ますます期待している。
しかし、現在の情報検索(IR)評価ベンチマークは、現代の検索領域の多様性を表すテストコレクションが欠如していることから、この開発に追随していない。
大規模ソーシャルサイエンス検索プラットフォームに基づく新しいベンチマークであるMIRAと、この重要なギャップに対処する。
MIRAは、単一の統一された評価フレームワーク内で、異種カテゴリ(パブリケーション、リサーチデータ、変数、およびインスツルメンツ&ツール)にまたがるカテゴリを意識したランク付けのために設計されている。
提案したコレクションは,(1)実際のユーザクエリに基づいて構築され,より現実的な評価基盤を提供し,(2)4つの異なるカテゴリの学術的項目を網羅し,多面的評価を可能にし,(3)大規模言語モデルを用いてトピック記述や物語を生成するとともに,これらのトピックに対する関連性評価を行い,テストコレクション生成の労力とコストを大幅に削減する。
我々はこのリソースを,多面的,カテゴリ対応,統合的,横断的な情報検索研究のための基礎的なテストベッドを提供することで,コミュニティに利益をもたらすためにリリースする。
関連論文リスト
- GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation [37.921524136479825]
SurGE(Survey Generation Evaluation)は、コンピュータ科学における科学的サーベイ生成の新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,(2)100万以上の論文からなる大規模学術コーパスを含む,一連のテストインスタンスから構成される。
さらに,4次元にわたって生成した調査の質を計測する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - MultiConIR: Towards multi-condition Information Retrieval [38.864056667809095]
MultiConIRは、複雑なマルチ条件クエリシナリオ下での検索および再ランクモデルの評価のために設計されたベンチマークである。
ほとんどのレトリバーとリランカは、クエリの複雑さが増大するにつれて、パフォーマンスが大幅に低下する。
この研究は、リランカの性能劣化の原因を解明し、クエリ内の条件位置が類似性評価にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。