論文の概要: SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging
- arxiv url: http://arxiv.org/abs/2504.10642v1
- Date: Mon, 14 Apr 2025 18:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:11.626749
- Title: SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging
- Title(参考訳): SilVar-Med:医療画像における説明可能な異常検出のための音声駆動型ビジュアル言語モデル
- Authors: Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy,
- Abstract要約: 本稿では,マルチモーダル医療画像アシスタントSilVar-Medを紹介する。
提案する推論データセットを用いて,医学的異常予測の背景にある推論の解釈に焦点をあてる。
この研究は、より透明でインタラクティブで、臨床的に実行可能な診断支援システムを育むことで、医療AIの分野を前進させると信じています。
- 参考スコア(独自算出の注目度): 1.220481237642298
- License:
- Abstract: Medical Visual Language Models have shown great potential in various healthcare applications, including medical image captioning and diagnostic assistance. However, most existing models rely on text-based instructions, limiting their usability in real-world clinical environments especially in scenarios such as surgery, text-based interaction is often impractical for physicians. In addition, current medical image analysis models typically lack comprehensive reasoning behind their predictions, which reduces their reliability for clinical decision-making. Given that medical diagnosis errors can have life-changing consequences, there is a critical need for interpretable and rational medical assistance. To address these challenges, we introduce an end-to-end speech-driven medical VLM, SilVar-Med, a multimodal medical image assistant that integrates speech interaction with VLMs, pioneering the task of voice-based communication for medical image analysis. In addition, we focus on the interpretation of the reasoning behind each prediction of medical abnormalities with a proposed reasoning dataset. Through extensive experiments, we demonstrate a proof-of-concept study for reasoning-driven medical image interpretation with end-to-end speech interaction. We believe this work will advance the field of medical AI by fostering more transparent, interactive, and clinically viable diagnostic support systems. Our code and dataset are publicly available at SiVar-Med.
- Abstract(参考訳): 医用ビジュアル言語モデルは、医用画像キャプションや診断支援など、様々な医療応用において大きな可能性を示している。
しかし、既存のほとんどのモデルはテキストベースの指示に依存しており、特に手術などのシナリオにおいて、実際の臨床環境での使用性を制限するため、テキストベースの相互作用は医師にとって現実的ではないことが多い。
さらに、現在の医療画像分析モデルでは、予測の背後にある包括的な推論が欠如しており、臨床的な意思決定の信頼性が低下している。
医療診断の誤りが人生を変える結果をもたらす可能性があることを考えると、解釈可能で合理的な医療支援が不可欠である。
これらの課題に対処するために,VLMと音声インタラクションを統合するマルチモーダル・メディカル・イメージ・アシスタントであるSilVar-Medを導入し,医用画像解析のための音声ベースのコミュニケーションの課題を開拓した。
さらに, 医学的異常予測の背景にある推論の解釈に, 提案した推論データセットを用いて焦点をあてる。
広範にわたる実験を通して,終末音声対話を用いた推論駆動型医用画像解釈のための概念実証実験を行った。
この研究は、より透明でインタラクティブで、臨床的に実行可能な診断支援システムを育むことで、医療AIの分野を前進させると信じています。
コードとデータセットはSiVar-Medで公開されています。
関連論文リスト
- ProMRVL-CAD: Proactive Dialogue System with Multi-Round Vision-Language Interactions for Computer-Aided Diagnosis [0.7430974817507225]
コンピュータ支援診断(ProMRVL-CAD)のためのLLMベースの対話システム、すなわちプロアクティブな多ラウンド視覚言語インタラクションを開発する。
提案した ProMRVL-CAD システムでは,患者に対して,知識グラフをレコメンデーションシステムに統合することにより,一定の医療アクセスを提供することができる。
論文 参考訳(メタデータ) (2025-02-15T01:14:23Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - A Generalist Learner for Multifaceted Medical Image Interpretation [14.75683710779724]
医用画像解釈のためのフレキシブルな学習とタスク作成を可能にする一般学習者であるMedVersaを提案する。
学習可能なオーケストレータとして大きな言語モデルを活用することで、MedVersaは視覚と言語の両方から学び、マルチモーダル入力をサポートし、リアルタイムタスク仕様を実行することができる。
我々の実験は、MedVersaが9つのタスクで最先端のパフォーマンスを達成し、時にはスペシャリストを10%以上上回っていることを示した。
論文 参考訳(メタデータ) (2024-05-13T17:58:51Z) - Developing ChatGPT for Biology and Medicine: A Complete Review of
Biomedical Question Answering [25.569980942498347]
ChatGPTは、医療診断、治療レコメンデーション、その他の医療支援の提供において、QA(QA)の戦略的青写真を探っている。
これは、自然言語処理(NLP)とマルチモーダルパラダイムによる医療領域データの取り込みの増加によって達成される。
論文 参考訳(メタデータ) (2024-01-15T07:21:16Z) - Mining Gaze for Contrastive Learning toward Computer-Assisted Diagnosis [61.089776864520594]
医用画像のテキストレポートの代替としてアイトラッキングを提案する。
医用画像を読み,診断する際に放射線科医の視線を追跡することにより,その視覚的注意と臨床的理由を理解することができる。
対照的な学習フレームワークのためのプラグイン・アンド・プレイモジュールとして,McGIP (McGIP) を導入した。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。