論文の概要: MIRB: Mathematical Information Retrieval Benchmark
- arxiv url: http://arxiv.org/abs/2505.15585v1
- Date: Wed, 21 May 2025 14:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.703291
- Title: MIRB: Mathematical Information Retrieval Benchmark
- Title(参考訳): MIRB: 数学的情報検索ベンチマーク
- Authors: Haocheng Ju, Bin Dong,
- Abstract要約: 検索モデルのMIR能力を評価するためにMIRB(Mathematical Information Retrieval Benchmark)を導入する。
MIRBには、セマンティックステートメント検索、質問応答検索、前提検索、公式検索の4つのタスクが含まれており、合計12のデータセットにまたがる。
このベンチマークで13の検索モデルを評価し、MIRに固有の課題を分析した。
- 参考スコア(独自算出の注目度): 4.587376749548757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical Information Retrieval (MIR) is the task of retrieving information from mathematical documents and plays a key role in various applications, including theorem search in mathematical libraries, answer retrieval on math forums, and premise selection in automated theorem proving. However, a unified benchmark for evaluating these diverse retrieval tasks has been lacking. In this paper, we introduce MIRB (Mathematical Information Retrieval Benchmark) to assess the MIR capabilities of retrieval models. MIRB includes four tasks: semantic statement retrieval, question-answer retrieval, premise retrieval, and formula retrieval, spanning a total of 12 datasets. We evaluate 13 retrieval models on this benchmark and analyze the challenges inherent to MIR. We hope that MIRB provides a comprehensive framework for evaluating MIR systems and helps advance the development of more effective retrieval models tailored to the mathematical domain.
- Abstract(参考訳): 数学情報検索(英: Mathematical Information Retrieval、MIR)は、数学文書から情報を取得し、数学図書館における定理探索、数学フォーラムでの回答検索、自動定理証明における前提選択など、様々な応用において重要な役割を果たすタスクである。
しかし、これらの多様な検索タスクを評価するための統一されたベンチマークは欠落している。
本稿では,MIRB(Mathematical Information Retrieval Benchmark)を導入し,検索モデルのMIR能力を評価する。
MIRBには、セマンティックステートメント検索、質問応答検索、前提検索、公式検索の4つのタスクが含まれており、合計12のデータセットにまたがる。
このベンチマークで13の検索モデルを評価し、MIRに固有の課題を分析した。
我々は、MIRBがMIRシステム評価のための包括的なフレームワークを提供し、数学的領域に合わせたより効果的な検索モデルの開発を促進することを願っている。
関連論文リスト
- Can we repurpose multiple-choice question-answering models to rerank retrieved documents? [0.0]
R* は概念実証モデルであり、文書の再ランク付けのための多重選択質問回答(MCQA)モデルを調和させる。
実験的な検証により、R*は検索精度を向上し、フィールドの進歩に寄与することが証明される。
論文 参考訳(メタデータ) (2025-03-06T17:53:24Z) - A Comprehensive Survey on Composed Image Retrieval [54.54527281731775]
Composed Image Retrieval (CIR)は、ユーザがマルチモーダルクエリを使ってターゲットイメージを検索できる、新しくて困難なタスクである。
現在、この分野のタイムリーな概要を提供するため、CIRの包括的なレビューは行われていない。
我々は、ACM TOIS、SIGIR、CVPRなど、トップカンファレンスやジャーナルで120以上の出版物から洞察を合成する。
論文 参考訳(メタデータ) (2025-02-19T01:37:24Z) - IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文 参考訳(メタデータ) (2024-09-24T05:39:53Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification [62.894790379098005]
本稿では,与えられた画像や言語命令に従って,モデルに画像の検索を要求する新しい命令-ReIDタスクを提案する。
Instruct-ReIDは一般的なReID設定の最初の探索であり、既存の6つのReIDタスクを異なる命令を割り当てることで特別なケースとして見ることができる。
本稿では,新しいベースラインモデル IRM を提案する。
論文 参考訳(メタデータ) (2024-05-28T03:35:46Z) - BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives [2.3420045370973828]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z) - UniIR: Training and Benchmarking Universal Multimodal Information
Retrievers [76.06249845401975]
命令誘導型マルチモーダルレトリバーであるUniIRを導入する。
UniIRは、10の多様なマルチモーダル-IRデータセットで共同で訓練された単一の検索システムであり、様々な検索タスクを実行するためにユーザー命令を解釈する。
我々は,汎用マルチモーダル情報検索の評価を標準化するために,総合的な結果を持つマルチモーダル検索ベンチマークであるM-BEIRを構築した。
論文 参考訳(メタデータ) (2023-11-28T18:55:52Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。