論文の概要: MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio
- arxiv url: http://arxiv.org/abs/2605.00969v1
- Date: Fri, 01 May 2026 16:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.522147
- Title: MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio
- Title(参考訳): MedMosaic: 多様な医療オーディオの大規模ベンチマーク
- Authors: Harshit Rajgarhia, Shuubham Ojha, Asif Shaik, Akhil Pothanapalli, Rachuri Lokesh, Abhishek Mukherji, Prasanna Desikan,
- Abstract要約: MedMosaicは、現実的な臨床制約の下で言語と音声の推論モデルをベンチマークするために設計されたデータセットである。
MedMosaicは、条件に関連した生理的音を含む様々な種類の医療オーディオを特徴としている。
データセットには合計46,701の質問回答ペアが含まれており、複数選択、シーケンシャルなマルチターン、オープンな質問回答などのカテゴリにまたがっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MedMosaic, a medical audio question-answering dataset designed to benchmark language and audio reasoning models under realistic clinical constraints. Medical audio data is difficult to collect due to privacy regulations and high annotation costs arising from domain expertise. Thus, existing benchmarks tend to underrepresent complex medical audio scenarios. To address these challenges, MedMosaic features a diverse range of medical audio types, including condition-related physiological sounds, carefully constructed synthetic voices to mimic speech with artifacts as well as real short and long length clinical conversations to model varying context lengths. The dataset also features a total of 46,701 question-answer pairs, spanning categories such as multiple-choice, sequential multi-turn, and open-ended question-answers, enabling systematic evaluation of multi-hop reasoning and answer generation capabilities. Benchmarking 13 audio and multimodal reasoning models reveals that reasoning remains challenging for all evaluated systems, with substantial performance variation across question types. In particular, even state-of-the-art model like Gemini-2.5-pro can only achieve 68.1% accuracy approximately. These findings underscore persistent limitations in medical reasoning and highlight the need for more robust, domain-specific multimodal reasoning models.
- Abstract(参考訳): MedMosaicは,現実的な臨床制約下での言語および音声推論モデルのベンチマークを目的とした,医療用音声質問応答データセットである。
医療オーディオデータは、ドメインの専門知識から生じるプライバシー規制と高いアノテーションコストのため、収集が困難である。
したがって、既存のベンチマークは複雑な医療オーディオのシナリオを過小評価する傾向がある。
これらの課題に対処するため、MedMosaicは、条件に関連した生理音、人工音声を慎重に構築し、人工品でスピーチを模倣する、そして様々な文脈の長さをモデル化する、リアルに短くて長い臨床会話を含む、多様な医療オーディオタイプを特徴としている。
データセットには合計46,701の質問回答ペアが含まれており、複数選択、シーケンシャルなマルチターン、オープンな質問回答などのカテゴリにまたがっており、マルチホップ推論と回答生成機能の体系的な評価を可能にしている。
13の音声およびマルチモーダル推論モデルのベンチマークにより、全ての評価システムにおいて推論は依然として困難であり、問題の種類によって性能がかなり異なることが判明した。
特に、Gemini-2.5-proのような最先端モデルでさえ68.1%の精度しか達成できない。
これらの知見は、医学的推論における永続的な制限を強調し、より堅牢でドメイン固有のマルチモーダル推論モデルの必要性を強調している。
関連論文リスト
- MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。
本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文 参考訳(メタデータ) (2026-01-06T13:56:33Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark [64.89810922949984]
本稿では,複雑なマルチシーン,動的に進化する音声推論タスクのモデルを評価するためのベンチマークMDARを紹介する。
MDARは、様々なオーディオクリップにリンクされた3000の慎重にキュレートされた質問応答ペアから構成される。
MDAR上で26の最先端オーディオ言語モデルをベンチマークし、それらが複雑な推論タスクに制限があることを観察する。
論文 参考訳(メタデータ) (2025-09-26T15:12:46Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - MedAtlas: Evaluating LLMs for Multi-Round, Multi-Task Medical Reasoning Across Diverse Imaging Modalities and Clinical Text [25.102399692530245]
MedAtlasは、現実的な医学的推論タスクにおいて、大きな言語モデルを評価するための新しいベンチマークフレームワークである。
MedAtlasの特徴は、マルチターン・ダイアログ、マルチモーダル・メディカル・イメージ・インタラクション、マルチタスク統合、高臨床的忠実性である。
それぞれの症例は、実際の診断から派生したもので、テキスト医療史とCT、MRI、PET、超音波、X線などの複数の画像モダリティの時間的相互作用を取り入れている。
論文 参考訳(メタデータ) (2025-08-13T17:32:17Z) - Towards Domain Specification of Embedding Models in Medicine [1.0713888959520208]
MTEB(Massive Text Embedding Benchmark)に基づく分類,クラスタリング,ペア分類,検索を対象とする51タスクの総合ベンチマークスイートを提案する。
以上の結果から,本手法はロバストな評価枠組みを確立し,各タスクにおける工芸品の代替品の状態を常に上回り,組込み性能が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T16:15:00Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。