論文の概要: INQUIRE: A Natural World Text-to-Image Retrieval Benchmark
- arxiv url: http://arxiv.org/abs/2411.02537v3
- Date: Mon, 11 Nov 2024 18:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:39.977154
- Title: INQUIRE: A Natural World Text-to-Image Retrieval Benchmark
- Title(参考訳): INQUIRE: 自然界のテキストと画像の検索ベンチマーク
- Authors: Edward Vendrow, Omiros Pantazis, Alexander Shepard, Gabriel Brostow, Kate E. Jones, Oisin Mac Aodha, Sara Beery, Grant Van Horn,
- Abstract要約: InQUIREは、専門家レベルのクエリにおけるマルチモーダル視覚言語モデルに挑戦するために設計されたテキスト・ツー・イメージ検索ベンチマークである。
InQUIREには、iNaturalist 2024(iNat24)、500万の自然界の画像の新しいデータセット、250のエキスパートレベルの検索クエリが含まれている。
InQUIRE-Fullrank,完全なデータセットランキングタスク,INQUIRE-Rerank,トップ100検索の精算タスクの2つの中核検索タスクを評価した。
- 参考スコア(独自算出の注目度): 51.823709631153946
- License:
- Abstract: We introduce INQUIRE, a text-to-image retrieval benchmark designed to challenge multimodal vision-language models on expert-level queries. INQUIRE includes iNaturalist 2024 (iNat24), a new dataset of five million natural world images, along with 250 expert-level retrieval queries. These queries are paired with all relevant images comprehensively labeled within iNat24, comprising 33,000 total matches. Queries span categories such as species identification, context, behavior, and appearance, emphasizing tasks that require nuanced image understanding and domain expertise. Our benchmark evaluates two core retrieval tasks: (1) INQUIRE-Fullrank, a full dataset ranking task, and (2) INQUIRE-Rerank, a reranking task for refining top-100 retrievals. Detailed evaluation of a range of recent multimodal models demonstrates that INQUIRE poses a significant challenge, with the best models failing to achieve an mAP@50 above 50%. In addition, we show that reranking with more powerful multimodal models can enhance retrieval performance, yet there remains a significant margin for improvement. By focusing on scientifically-motivated ecological challenges, INQUIRE aims to bridge the gap between AI capabilities and the needs of real-world scientific inquiry, encouraging the development of retrieval systems that can assist with accelerating ecological and biodiversity research. Our dataset and code are available at https://inquire-benchmark.github.io
- Abstract(参考訳): InQUIREは、専門家レベルのクエリにおけるマルチモーダル視覚言語モデルに挑戦するために設計されたテキスト・ツー・イメージ検索ベンチマークである。
INQUIREにはiNaturalist 2024 (iNat24)が含まれており、500万の自然界の画像の新しいデータセットと250のエキスパートレベルの検索クエリが含まれている。
これらのクエリは、iNat24内で包括的にラベル付けされたすべての関連するイメージとペアリングされる。
クエリは、種識別、コンテキスト、振る舞い、外観などのカテゴリにまたがっており、微妙なイメージ理解とドメインの専門知識を必要とするタスクを強調している。
InQUIRE-Fullrank,完全なデータセットランキングタスク,INQUIRE-Rerank,トップ100検索の精算タスクの2つの中核検索タスクを評価した。
最近のマルチモーダルモデルの詳細な評価は、INQUIREが大きな課題となり、最高のモデルではmAP@50を50%以上達成できなかったことを示している。
さらに、より強力なマルチモーダルモデルによるリランクは、検索性能を向上させることができるが、改善の余地は大きい。
科学的に動機付けられた生態的課題に焦点を当てることで、INQUIREはAI能力と現実世界の科学的調査の必要性のギャップを埋めることを目的としており、生態学と生物多様性の研究の加速を支援する検索システムの開発を奨励している。
私たちのデータセットとコードはhttps://inquire-benchmark.github.ioで公開されています。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based
Queries [2.4816250611120547]
マルチレベルAspect-based queries (DORIS-MAE) を用いた科学的文書検索手法を提案する。
複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。
Anno-GPTは、専門家レベルのデータセットアノテーションタスクにおいて、LLM(Large Language Models)のパフォーマンスを検証するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-07T03:25:06Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments [54.405920619915655]
これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。
MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。
初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
論文 参考訳(メタデータ) (2021-04-17T14:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。