論文の概要: MediSee: Reasoning-based Pixel-level Perception in Medical Images
- arxiv url: http://arxiv.org/abs/2504.11008v2
- Date: Wed, 23 Apr 2025 15:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.527887
- Title: MediSee: Reasoning-based Pixel-level Perception in Medical Images
- Title(参考訳): メディセー:医学画像における推論に基づくピクセルレベルの知覚
- Authors: Qinyue Tong, Ziqian Lu, Jun Liu, Yangming Zheng, Zheming Lu,
- Abstract要約: MedSD(Medical Reasoning and Detection)を導入した新しい医療ビジョンタスクについて紹介する。
MedSDの目的は、医療画像に関する暗黙のクエリを理解し、対応するセグメンテーションマスクとターゲットオブジェクトのバウンディングボックスを生成することである。
医学的推論のセグメンテーションと検出のために設計された効果的なベースラインモデルであるメディセーを提案する。
- 参考スコア(独自算出の注目度): 6.405810587061276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable advancements in pixel-level medical image perception, existing methods are either limited to specific tasks or heavily rely on accurate bounding boxes or text labels as input prompts. However, the medical knowledge required for input is a huge obstacle for general public, which greatly reduces the universality of these methods. Compared with these domain-specialized auxiliary information, general users tend to rely on oral queries that require logical reasoning. In this paper, we introduce a novel medical vision task: Medical Reasoning Segmentation and Detection (MedSD), which aims to comprehend implicit queries about medical images and generate the corresponding segmentation mask and bounding box for the target object. To accomplish this task, we first introduce a Multi-perspective, Logic-driven Medical Reasoning Segmentation and Detection (MLMR-SD) dataset, which encompasses a substantial collection of medical entity targets along with their corresponding reasoning. Furthermore, we propose MediSee, an effective baseline model designed for medical reasoning segmentation and detection. The experimental results indicate that the proposed method can effectively address MedSD with implicit colloquial queries and outperform traditional medical referring segmentation methods.
- Abstract(参考訳): ピクセルレベルの医療画像認識が著しく進歩しているにもかかわらず、既存の方法は特定のタスクに限定されているか、入力プロンプトとして正確な境界ボックスやテキストラベルに強く依存している。
しかし、入力に必要な医療知識は一般大衆にとって大きな障害であり、これらの手法の普遍性を大幅に低下させる。
これらのドメイン特化補助情報と比較すると、一般ユーザーは論理的推論を必要とする口頭質問に頼る傾向にある。
本稿では、医用画像に関する暗黙的なクエリを理解し、対象物に対する対応するセグメンテーションマスクとバウンディングボックスを生成することを目的とした、新しい医用視覚タスク「MedSD」を紹介する。
そこで我々はまず,MLMR-SD(Multi-perspective, Logic-driven Medical Reasoning Segmentation and Detection)データセットを導入する。
さらに,医学的推論のセグメンテーションと検出のための効果的なベースラインモデルであるメディセーを提案する。
実験の結果,提案手法は暗黙の口語クエリでMedSDを効果的に処理し,従来の医用参照セグメンテーション法より優れていることが示された。
関連論文リスト
- MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。
我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。
LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文 参考訳(メタデータ) (2024-10-22T12:13:47Z) - Few Exemplar-Based General Medical Image Segmentation via Domain-Aware Selective Adaptation [28.186785488818135]
医用画像のセグメンテーションは、ドメインのギャップ、データモダリティの変化、ドメインの知識や専門家への依存による課題を引き起こす。
本稿では,自然画像で訓練した大規模モデルから学習した一般知識を,対応する医療領域・モダリティに適応させるための,ドメイン対応選択的適応手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T21:00:57Z) - MedRG: Medical Report Grounding with Multi-modal Large Language Model [42.04042642085121]
Medical Report Grounding (MedRG)は、キーフレーズを予測するためにマルチモーダルな大規模言語モデルを利用するエンドツーエンドのソリューションである。
MedRGの有効性を実証し,既存の医療用語の接頭法の性能を上回り,その効果を検証した。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Influence based explainability of brain tumors segmentation in multimodal Magnetic Resonance Imaging [3.1994667952195273]
本稿では,医用画像タスクのセグメンテーションに焦点をあて,これまで提案されてきたほとんどの説明可能性手法が入力唾液マップの視覚的説明を提供する。
この研究の目的は、もともと分類タスクのために提案された影響ベースの説明可能性アルゴリズムであるTracInを拡張し、実装し、テストすることである。
論文 参考訳(メタデータ) (2024-04-05T17:07:21Z) - CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
CLIPの使用は最近、医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - EviPrompt: A Training-Free Evidential Prompt Generation Method for
Segment Anything Model in Medical Images [14.899388051854084]
医用画像のセグメンテーションは、臨床応用性は非常に高いが、深層学習の進歩にもかかわらず、依然として課題である。
本稿では,これらの課題を克服するために,EviPromptという新たなトレーニング不要なエフェクトプロンプト生成手法を提案する。
提案手法は,医用画像に固有の類似性に基づいて構築され,単一の参照画像アノテーションペアのみを必要とする。
論文 参考訳(メタデータ) (2023-11-10T21:22:22Z) - Multi-task Explainable Skin Lesion Classification [54.76511683427566]
少ないラベル付きデータでよく一般化する皮膚病変に対する数発のショットベースアプローチを提案する。
提案手法は,アテンションモジュールや分類ネットワークとして機能するセグメンテーションネットワークの融合を含む。
論文 参考訳(メタデータ) (2023-10-11T05:49:47Z) - BMAD: Benchmarks for Medical Anomaly Detection [51.22159321912891]
異常検出(AD)は、機械学習とコンピュータビジョンの基本的な研究課題である。
医用画像では、ADはまれな疾患や病態を示す可能性のある異常の検出と診断に特に重要である。
医用画像の異常検出方法を評価するための総合評価ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-06-20T20:23:46Z) - Few Shot Medical Image Segmentation with Cross Attention Transformer [30.54965157877615]
我々は、CAT-Netと呼ばれる、数ショットの医用画像セグメンテーションのための新しいフレームワークを提案する。
提案するネットワークは,サポート画像とクエリ画像の相関関係を抽出し,有用なフォアグラウンド情報のみに限定する。
提案手法を,Abd-CT,Abd-MRI,Card-MRIの3つの公開データセットで検証した。
論文 参考訳(メタデータ) (2023-03-24T09:10:14Z) - Self-Supervision with Superpixels: Training Few-shot Medical Image
Segmentation without Annotation [12.47837000630753]
ほとんどショットのセマンティックセグメンテーションは医療画像の応用に大きな可能性を秘めている。
既存のFSS技術の多くは、トレーニングのために豊富な注釈付きセマンティッククラスを必要とする。
本稿では,医用画像に対する自己監督型FSSフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T04:46:33Z) - Collaborative Unsupervised Domain Adaptation for Medical Image Diagnosis [102.40869566439514]
我々は、Unsupervised Domain Adaptation (UDA)を通じて、対象タスクにおける学習を支援するために、関連ドメインからの豊富なラベル付きデータを活用しようとしている。
クリーンなラベル付きデータやサンプルを仮定するほとんどのUDAメソッドが等しく転送可能であるのとは異なり、協調的教師なしドメイン適応アルゴリズムを革新的に提案する。
提案手法の一般化性能を理論的に解析し,医用画像と一般画像の両方で実験的に評価する。
論文 参考訳(メタデータ) (2020-07-05T11:49:17Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。