論文の概要: MedEBench: Diagnosing Reliability in Text-Guided Medical Image Editing
- arxiv url: http://arxiv.org/abs/2506.01921v5
- Date: Tue, 16 Sep 2025 08:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:32.723466
- Title: MedEBench: Diagnosing Reliability in Text-Guided Medical Image Editing
- Title(参考訳): MedEBench:テキストガイドによる医用画像編集における信頼性の診断
- Authors: Minghao Liu, Zhitao He, Zhiyuan Fan, Qingyun Wang, Yi R., Fung,
- Abstract要約: MedEBenchはテキスト誘導医療画像編集における信頼性の診断を目的としたベンチマークである。
MedEBenchは、70の異なる編集タスクと13の解剖学的領域を含む、1,182の臨床試験済みイメージプロンプトペアで構成されている。
- 参考スコア(独自算出の注目度): 10.77316220676579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided image editing has seen significant progress in natural image domains, but its application in medical imaging remains limited and lacks standardized evaluation frameworks. Such editing could revolutionize clinical practices by enabling personalized surgical planning, enhancing medical education, and improving patient communication. To bridge this gap, we introduce MedEBench1, a robust benchmark designed to diagnose reliability in text-guided medical image editing. MedEBench consists of 1,182 clinically curated image-prompt pairs covering 70 distinct editing tasks and 13 anatomical regions. It contributes in three key areas: (1) a clinically grounded evaluation framework that measures Editing Accuracy, Context Preservation, and Visual Quality, complemented by detailed descriptions of intended edits and corresponding Region-of-Interest (ROI) masks; (2) a comprehensive comparison of seven state-of-theart models, revealing consistent patterns of failure; and (3) a diagnostic error analysis technique that leverages attention alignment, using Intersection-over-Union (IoU) between model attention maps and ROI masks to identify mislocalization issues, where models erroneously focus on incorrect anatomical regions. MedEBench sets the stage for developing more reliable and clinically effective text-guided medical image editing tools.
- Abstract(参考訳): テキスト誘導画像編集は、自然画像領域において顕著な進歩を遂げているが、医用画像への応用は限定的であり、標準化された評価フレームワークが欠如している。
このような編集は、パーソナライズされた手術計画を可能にし、医療教育を強化し、患者とのコミュニケーションを改善することで、臨床実践に革命をもたらす可能性がある。
このギャップを埋めるために、テキスト誘導医療画像編集における信頼性の診断を目的とした堅牢なベンチマークであるMedEBench1を導入する。
MedEBenchは、70の異なる編集タスクと13の解剖学的領域を含む、1,182の臨床試験済みイメージプロンプトペアで構成されている。
本研究は,(1)意図した編集とそれに対応する領域間関心(ROI)マスクの詳細な記述を補完した,精度・文脈保存・視覚品質の編集を行う臨床基盤評価フレームワーク,(2)最先端の7つのモデルと一貫した失敗パターンを総合的に比較し,(3)モデル注意マップとROIマスクのインターセクション・オーバー・ユニオン(IoU)を用いて,不正確な解剖領域に誤って焦点をあてる診断誤差分析技術,の3つの重要な領域に寄与する。
MedEBenchは、より信頼性が高く、臨床的に有効なテキスト誘導医療画像編集ツールを開発するためのステージを設定している。
関連論文リスト
- ACM Multimedia Grand Challenge on ENT Endoscopy Analysis [9.343316855950263]
本稿では,細粒度の解剖学的分類と画像間画像検索,およびバイリンガル監視下でのテキスト間画像検索を統合したENTRepを紹介する。
このデータセットは、解剖学的領域と正常または異常な状態にラベル付けされた専門家注釈付き画像と、二重言語記述を伴う。
論文 参考訳(メタデータ) (2025-08-06T18:22:23Z) - Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。
本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T13:31:24Z) - Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [50.483761005446]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文 参考訳(メタデータ) (2025-05-21T05:16:45Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - Interactive Tumor Progression Modeling via Sketch-Based Image Editing [54.47725383502915]
腫瘍進行編集のためのスケッチベース拡散モデルであるSkEditTumorを提案する。
スケッチを構造的先行として活用することにより,構造的整合性と視覚的リアリズムを維持しつつ,腫瘍領域の精密な修正を可能にする。
私たちのコントリビューションには、医用画像編集のための拡散モデルとスケッチの新たな統合、腫瘍進行の可視化のきめ細かい制御、複数のデータセットにわたる広範な検証などが含まれています。
論文 参考訳(メタデータ) (2025-03-10T00:04:19Z) - Structure-Aware Stylized Image Synthesis for Robust Medical Image Segmentation [10.776242801237862]
本稿では,拡散モデルと構造保存ネットワークを組み合わせた新しい医用画像分割手法を提案する。
本手法は, 病変の位置, サイズ, 形状を維持しつつ, 様々なソースからの画像を一貫したスタイルに変換することで, 領域シフトを効果的に軽減する。
論文 参考訳(メタデータ) (2024-12-05T16:15:32Z) - LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。
我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。
LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文 参考訳(メタデータ) (2024-10-22T12:13:47Z) - Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [28.904419606450876]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z) - MedEdit: Counterfactual Diffusion-based Image Editing on Brain MRI [2.4557713325522914]
医用画像編集のための条件拡散モデルであるMedEditを提案する。
MedEditは、疾患効果のモデリングとオリジナルのスキャンの完全性を維持するバランスを保ちながら、特定の領域の病理を誘導する。
本研究は, 現実的, 臨床的に有用な画像編集ツールの開発をさらに進めるために, 対物画像編集研究を可能にすると信じている。
論文 参考訳(メタデータ) (2024-07-21T21:19:09Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Plaintext-Free Deep Learning for Privacy-Preserving Medical Image Analysis via Frequency Information Embedding [9.192156293063414]
本稿では,サロゲート画像を解析に用いる新しいフレームワークを提案する。
このフレームワークは、周波数領域交換スタイル融合(FESF)と呼ばれる。
本フレームワークは,医療画像のプライバシを効果的に保ち,DLモデルの診断精度を比較的高いレベルで維持し,各種データセットやDLベースモデルに対して有効性を示す。
論文 参考訳(メタデータ) (2024-03-25T06:56:38Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - ElixirNet: Relation-aware Network Architecture Adaptation for Medical
Lesion Detection [90.13718478362337]
本稿では,1)TruncatedRPNが正負値と負値のバランスをとること,2)Auto-lesion Blockが自動的に医療画像にカスタマイズされ,地域提案間の関係認識操作が組み込まれること,3)Relation Transferモジュールが意味的関係を組み込むこと,の3つのコンポーネントを含む新しいElixirNetを紹介した。
DeepLesionとKits19の実験では、ElixirNetの有効性が証明され、パラメータが少なくてFPNよりも感度と精度が向上した。
論文 参考訳(メタデータ) (2020-03-03T05:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。