論文の概要: Rethinking Patient Education as Multi-turn Multi-modal Interaction
- arxiv url: http://arxiv.org/abs/2604.14656v1
- Date: Thu, 16 Apr 2026 06:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.751581
- Title: Rethinking Patient Education as Multi-turn Multi-modal Interaction
- Title(参考訳): マルチターンマルチモーダルインタラクションとしての患者教育の再考
- Authors: Zonghai Yao, Zhipeng Tang, Chengtao Lin, Xiong Luo, Benlu Wang, Juncheng Huang, Chin Siang Ong, Hong Yu,
- Abstract要約: MedImageEduはマルチターン・エビデンス・グラウンドド・ラジオロジー患者教育のためのベンチマークである。
DoctorAgentはPatentAgentと対話し、教育レベル、健康リテラシー、パーソナリティなどの要因をキャプチャーする。
患者の質問が視覚的サポートの恩恵を受ける場合、DoctorAgentは、レポート、ケースイメージ、そして現在の質問を、ベンチマークが提供する描画ツールに発行することができる。
このツールはイメージ(s)を返すが、その後DoctorAgentはイメージ(s)と接地された平易な説明からなる最終的なマルチモーダル応答を生成する。
- 参考スコア(独自算出の注目度): 8.98413612284677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most medical multimodal benchmarks focus on static tasks such as image question answering, report generation, and plain-language rewriting. Patient education is more demanding: systems must identify relevant evidence across images, show patients where to look, explain findings in accessible language, and handle confusion or distress. Yet most patient education work remains text-only, even though combined image-and-text explanations may better support understanding. We introduce MedImageEdu, a benchmark for multi-turn, evidence-grounded radiology patient education. Each case provides a radiology report with report text and case images. A DoctorAgent interacts with a PatientAgent, conditioned on a hidden profile that captures factors such as education level, health literacy, and personality. When a patient question would benefit from visual support, the DoctorAgent can issue drawing instructions grounded in the report, case images, and the current question to a benchmark-provided drawing tool. The tool returns image(s), after which the DoctorAgent produces a final multimodal response consisting of the image(s) and a grounded plain-language explanation. MedImageEdu contains 150 cases from three sources and evaluates both the consultation process and the final multimodal response along five dimensions: Consultation, Safety and Scope, Language Quality, Drawing Quality, and Image-Text Response Quality. Across representative open- and closed-source vision-language model agents, we find three consistent gaps: fluent language often outpaces faithful visual grounding, safety is the weakest dimension across disease categories, and emotionally tense interactions are harder than low education or low health literacy. MedImageEdu provides a controlled testbed for assessing whether multimodal agents can teach from evidence rather than merely answer from text.
- Abstract(参考訳): ほとんどの医療マルチモーダルベンチマークは、画像質問応答、レポート生成、平易な言語書き換えなどの静的タスクに焦点を当てている。
患者教育はより要求され、システムは画像全体で関連する証拠を特定し、どこに見るべきかを示し、アクセス可能な言語で発見を説明し、混乱や苦痛に対処する必要がある。
しかし、ほとんどの患者教育作業はテキストのみであり、画像とテキストによる説明の組み合わせは理解の助けになるかもしれない。
MedImageEduはマルチターン・エビデンス・グラウンドド・ラジオロジー患者教育のためのベンチマークである。
各ケースは、レポートテキストとケースイメージを備えた放射線学レポートを提供する。
DoctorAgentはPatentAgentと対話し、教育レベル、健康リテラシー、パーソナリティなどの要因をキャプチャーする。
患者の質問が視覚的サポートの恩恵を受ける場合、DoctorAgentは、レポート、ケースイメージ、そして現在の質問を、ベンチマークが提供する描画ツールに発行することができる。
このツールはイメージ(s)を返すが、その後DoctorAgentはイメージ(s)と接地された平易な説明からなる最終的なマルチモーダル応答を生成する。
MedImageEduには3つのソースから150のケースが含まれており、コンサルティング、安全、スコープ、言語品質、描画品質、画像-テキスト応答品質という5つの側面に沿って、コンサルティングプロセスと最終マルチモーダル応答の両方を評価している。
オープンおよびクローズドソースの視覚言語モデルエージェント全体で、3つの一貫したギャップが見つかる: 流動言語は、しばしば忠実な視覚的基盤を上回り、安全は病気のカテゴリーの中で最も弱い次元であり、感情的に緊張する相互作用は、低教育や低健康リテラシーよりも難しい。
MedImageEduは、テキストからのみ答えるのではなく、エビデンスからマルチモーダルエージェントが教えられるかどうかを評価するためのコントロールされたテストベッドを提供する。
関連論文リスト
- TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue [25.398370966763597]
オンライン医療相談のシナリオでは、医師は患者が複数のラウンドで提供したテキストや画像に反応し、健康状態の診断を行う。
従来の医療用視覚質問応答 (Med-VQA) において, 専門機器が取得した高品質な画像とは違って, 症例内の画像は患者の携帯電話で撮影される。
マルチターンマルチモーダル医療対話における視覚言語アライメントを改善するゼロショット戦略であるZALM3を提案する。
論文 参考訳(メタデータ) (2024-09-26T07:55:57Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-01T14:21:19Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。