論文の概要: Benchmarking Information Retrieval Models on Complex Retrieval Tasks
- arxiv url: http://arxiv.org/abs/2509.07253v1
- Date: Mon, 08 Sep 2025 22:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.1343
- Title: Benchmarking Information Retrieval Models on Complex Retrieval Tasks
- Title(参考訳): 複雑な検索課題における情報検索モデルのベンチマーク
- Authors: Julian Killingback, Hamed Zamani,
- Abstract要約: 大規模言語モデル(LLM)は、テキストベースのタスクのための素晴らしい汎用ツールです。
対照的に、検索モデルはそのような有能な汎用モデルがまだ現れていない。
- 参考スコア(独自算出の注目度): 32.18858311247196
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are incredible and versatile tools for text-based tasks that have enabled countless, previously unimaginable, applications. Retrieval models, in contrast, have not yet seen such capable general-purpose models emerge. To achieve this goal, retrieval models must be able to perform complex retrieval tasks, where queries contain multiple parts, constraints, or requirements in natural language. These tasks represent a natural progression from the simple, single-aspect queries that are used in the vast majority of existing, commonly used evaluation sets. Complex queries naturally arise as people expect search systems to handle more specific and often ambitious information requests, as is demonstrated by how people use LLM-based information systems. Despite the growing desire for retrieval models to expand their capabilities in complex retrieval tasks, there exist limited resources to assess the ability of retrieval models on a comprehensive set of diverse complex tasks. The few resources that do exist feature a limited scope and often lack realistic settings making it hard to know the true capabilities of retrieval models on complex real-world retrieval tasks. To address this shortcoming and spur innovation in next-generation retrieval models, we construct a diverse and realistic set of complex retrieval tasks and benchmark a representative set of state-of-the-art retrieval models. Additionally, we explore the impact of LLM-based query expansion and rewriting on retrieval quality. Our results show that even the best models struggle to produce high-quality retrieval results with the highest average nDCG@10 of only 0.346 and R@100 of only 0.587 across all tasks. Although LLM augmentation can help weaker models, the strongest model has decreased performance across all metrics with all rewriting techniques.
- Abstract(参考訳): 大きな言語モデル(LLM)は、数え切れないほど、以前は想像不可能なアプリケーションを実現したテキストベースのタスクのための、信じられないほど多用途のツールです。
対照的に、検索モデルはそのような有能な汎用モデルがまだ現れていない。
この目標を達成するために、検索モデルは、クエリが自然言語の複数の部分、制約、要求を含む複雑な検索タスクを実行できなければならない。
これらのタスクは、既存の一般的な評価セットの大部分で使われている単純な単一アスペクトクエリからの自然な進歩を表している。
複雑なクエリは、LLMベースの情報システムの使用方法が示すように、人々が検索システムがより具体的で、しばしば野心的な情報要求を処理することを期待するときに自然に発生する。
複雑な検索タスクにおいて、検索モデルを拡張したいという欲求が高まる一方で、多様な複雑なタスクの包括的セットにおいて、検索モデルの能力を評価するための限られたリソースが存在する。
存在する数少ないリソースはスコープが限られており、しばしば現実的な設定が欠けているため、複雑な現実世界の検索タスクにおける検索モデルの真の能力を知ることは困難である。
この欠点に対処し、次世代検索モデルの革新を促すため、多種多様で現実的な検索タスクセットを構築し、最先端検索モデルの代表セットをベンチマークする。
さらに,LLMに基づくクエリ拡張と書き換えが検索品質に与える影響についても検討する。
その結果、最高のモデルでさえ、すべてのタスクにおいて平均的なnDCG@10が0.346、R@100が0.587で、高品質な検索結果を生み出すのに苦労していることがわかった。
LLM拡張は、より弱いモデルに役立つが、最強のモデルは、すべてのリライトテクニックによって、すべてのメトリクスのパフォーマンスを低下させた。
関連論文リスト
- MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - MultiConIR: Towards multi-condition Information Retrieval [38.864056667809095]
MultiConIRは、複雑なマルチ条件クエリシナリオ下での検索および再ランクモデルの評価のために設計されたベンチマークである。
ほとんどのレトリバーとリランカは、クエリの複雑さが増大するにつれて、パフォーマンスが大幅に低下する。
この研究は、リランカの性能劣化の原因を解明し、クエリ内の条件位置が類似性評価にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives [2.3420045370973828]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。