論文の概要: IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
- arxiv url: http://arxiv.org/abs/2503.04644v1
- Date: Thu, 06 Mar 2025 17:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:42.940274
- Title: IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
- Title(参考訳): IFIR:エキスパートドメイン情報検索におけるインストラクションフォロー評価のための総合ベンチマーク
- Authors: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao,
- Abstract要約: 我々は、専門家ドメインにおける指示追従情報検索を評価するために設計された、最初の包括的なベンチマークであるIFIRを紹介する。
IFIRには2,426の高品質な例があり、金融、法律、医療、科学文学という4つの専門分野にまたがる8つのサブセットをカバーしている。
- 参考スコア(独自算出の注目度): 11.978909077813556
- License:
- Abstract: We introduce IFIR, the first comprehensive benchmark designed to evaluate instruction-following information retrieval (IR) in expert domains. IFIR includes 2,426 high-quality examples and covers eight subsets across four specialized domains: finance, law, healthcare, and science literature. Each subset addresses one or more domain-specific retrieval tasks, replicating real-world scenarios where customized instructions are critical. IFIR enables a detailed analysis of instruction-following retrieval capabilities by incorporating instructions at different levels of complexity. We also propose a novel LLM-based evaluation method to provide a more precise and reliable assessment of model performance in following instructions. Through extensive experiments on 15 frontier retrieval models, including those based on LLMs, our results reveal that current models face significant challenges in effectively following complex, domain-specific instructions. We further provide in-depth analyses to highlight these limitations, offering valuable insights to guide future advancements in retriever development.
- Abstract(参考訳): 我々は、専門家ドメインにおける命令追従情報検索(IR)を評価するために設計された、最初の包括的なベンチマークであるIFIRを紹介する。
IFIRには2,426の高品質な例があり、金融、法律、医療、科学文学という4つの専門分野にまたがる8つのサブセットをカバーしている。
各サブセットは1つ以上のドメイン固有の検索タスクに対処し、カスタマイズされた命令が重要となる現実世界のシナリオを複製する。
IFIRは、異なるレベルの複雑さで命令を組み込むことで、命令追従能力の詳細な分析を可能にする。
また,後続命令におけるモデル性能のより正確かつ信頼性の高い評価を行うためのLCMに基づく新しい評価手法を提案する。
LLMをベースとした15のフロンティア検索モデルに対する広範な実験により、現在のモデルでは、複雑なドメイン固有の命令を効果的に追従する上で重要な課題に直面していることが明らかとなった。
さらに,これらの限界を明らかにするための詳細な分析を行い,レトリバー開発における今後の進歩を導く貴重な洞察を提供する。
関連論文リスト
- Towards Interactive Deepfake Analysis [40.0271474912034]
本稿では,マルチモーダル大言語モデル(MLLM)の命令チューニングによる対話型ディープフェイク解析の探索を目的とする。
これらの課題に対処するために,(1)DFA-Instructと呼ばれるインストラクションフォローデータセットを実現するGPT支援データ構築プロセス,(2)DFA-Benchというベンチマーク,(3)DFA-GPTと呼ばれる対話型ディープフェイク分析システムをコミュニティの強力なベースラインとして構築する深度検出・深度分類・アーティファクト記述におけるMLLMの能力を包括的に評価することを目的とした,DFA-Benchというベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-02T09:34:11Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions [71.5977045423177]
本稿では,情報検索システムにおける命令の利用について検討する。
厳密なインストラクション評価ベンチマークを含むデータセットFollowIRを紹介した。
我々は、IRモデルが複雑な命令に従うことを学習することは可能であることを示す。
論文 参考訳(メタデータ) (2024-03-22T14:42:29Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。