論文の概要: Expanding Relevance Judgments for Medical Case-based Retrieval Task with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2506.17782v1
- Date: Sat, 21 Jun 2025 18:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.58191
- Title: Expanding Relevance Judgments for Medical Case-based Retrieval Task with Multimodal LLMs
- Title(参考訳): マルチモーダルLCMを用いた医療ケースベース検索作業における関連判断の拡張
- Authors: Catarina Pires, Sérgio Nunes, Luís Filipe Teixeira,
- Abstract要約: 我々は、MLLM(Multimodal Large Language Model)を用いて、関連判断を拡張し、新しい自動判断データセットを作成する。
以上の結果から,MLLMが関連判断の規模を拡大する可能性を示し,医療・マルチモーダルIRタスクにおける検索評価を支援する上で有望な方向性を提供する。
- 参考スコア(独自算出の注目度): 0.032771631221674334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Information Retrieval (IR) systems relies on high-quality manual relevance judgments (qrels), which are costly and time-consuming to obtain. While pooling reduces the annotation effort, it results in only partially labeled datasets. Large Language Models (LLMs) offer a promising alternative to reducing reliance on manual judgments, particularly in complex domains like medical case-based retrieval, where relevance assessment requires analyzing both textual and visual information. In this work, we explore using a Multimodal Large Language Model (MLLM) to expand relevance judgments, creating a new dataset of automated judgments. Specifically, we employ Gemini 1.5 Pro on the ImageCLEFmed 2013 case-based retrieval task, simulating human assessment through an iteratively refined, structured prompting strategy that integrates binary scoring, instruction-based evaluation, and few-shot learning. We systematically experimented with various prompt configurations to maximize agreement with human judgments. To evaluate agreement between the MLLM and human judgments, we use Cohen's Kappa, achieving a substantial agreement score of 0.6, comparable to inter-annotator agreement typically observed in multimodal retrieval tasks. Starting from the original 15,028 manual judgments (4.72% relevant) across 35 topics, our MLLM-based approach expanded the dataset by over 37x to 558,653 judgments, increasing relevant annotations to 5,950. On average, each medical case query received 15,398 new annotations, with approximately 99% being non-relevant, reflecting the high sparsity typical in this domain. Our results demonstrate the potential of MLLMs to scale relevance judgment collection, offering a promising direction for supporting retrieval evaluation in medical and multimodal IR tasks.
- Abstract(参考訳): 情報検索 (IR) システムの評価には質の高いマニュアル関連判断 (qrels) が用いられる。
プーリングはアノテーションの労力を減らすが、部分的にラベル付けされたデータセットのみをもたらす。
大規模言語モデル(LLM)は、特に医学ケースベースの検索のような複雑な領域において、手動による判断への依存を減らすための有望な代替手段を提供する。
本研究では,Multimodal Large Language Model (MLLM) を用いて妥当性判断を拡張し,自動判断の新しいデータセットを作成する。
具体的には、ImageCLEFmed 2013のケースベース検索タスクにGemini 1.5 Proを採用し、リテラルスコア、命令ベース評価、少数ショット学習を統合した反復的に洗練され、構造化されたプロンプト戦略によって人的評価をシミュレートする。
我々は,人的判断との一致を最大化するために,様々な素早い構成を体系的に実験した。
MLLMと人的判断の一致を評価するために、コーエンのKappaを用いて、マルチモーダル検索タスクで一般的に見られるアノテーション間の合意に匹敵する、実質的な合意スコア0.6を達成する。
最初の15,028のマニュアル判断(4.72%の関連性)から始まり、MLLMベースのアプローチでデータセットを37x以上から58,653まで拡張し、関連するアノテーションを5,950まで増やしました。
平均して、各医療ケースクエリは15,398の新しいアノテーションを受け取り、約99%が非関連であり、このドメインで典型的な高頻度を反映している。
以上の結果から,MLLMが関連判断の規模を拡大する可能性を示し,医療・マルチモーダルIRタスクにおける検索評価を支援する上で有望な方向性を提供する。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Benchmarking LLM-based Relevance Judgment Methods [15.255877686845773]
大規模言語モデル(LLM)は、学術的、産業的にもますます多くデプロイされている。
我々は,2値関係判定,次級関係評価,相互選好に基づく手法,および2つのナゲットに基づく評価方法など,複数のLCMに基づく関連性評価手法を体系的に比較した。
データリリースには、オープンソース(Llama3.2b)と商用(gpt-4o)モデルの両方で生成された関連判断が含まれています。
論文 参考訳(メタデータ) (2025-04-17T01:13:21Z) - Judge Anything: MLLM as a Judge Across Any Modality [43.51517213949702]
本稿では,タスクAnything と JudgeAnything という2つのベンチマークを導入し,MLLM の全体性能と判断能力を評価する。
TaskAnythingは15のあらゆるモダリティカテゴリでMMUとMMGの機能を評価し、よく確立されたベンチマークから1500のクエリをキュレートする。
judgeAnythingは、ペア比較とスコア評価の観点から、5段階(GPT-4oやGemini-2.0-Flashなど)の判定能力を評価する。
我々の研究は、より公平な評価プロトコルの必要性と、人間の嗜好との整合性を強調している。
論文 参考訳(メタデータ) (2025-03-21T18:59:20Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。
MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。