論文の概要: Knowledge to Sight: Reasoning over Visual Attributes via Knowledge Decomposition for Abnormality Grounding
- arxiv url: http://arxiv.org/abs/2508.04572v1
- Date: Wed, 06 Aug 2025 15:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.803938
- Title: Knowledge to Sight: Reasoning over Visual Attributes via Knowledge Decomposition for Abnormality Grounding
- Title(参考訳): 視力に対する知識:異常接地のための知識分解による視覚属性の推論
- Authors: Jun Li, Che Liu, Wenjia Bai, Mingxuan Liu, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel,
- Abstract要約: 視覚属性を分解して構造化された監視を行うフレームワークである textbfKnowledge to Sight (K2Sight) を提案する。
従来のレポートレベルの監視とは違って,本手法はドメイン知識と空間構造を明確に橋渡しする。
我々は、最先端医療用VLMに必要なデータのわずか1.5%を用いて、0.23Bと2Bのセマンティックパラメータを持つコンパクトモデルを訓練する。
- 参考スコア(独自算出の注目度): 14.354891415427154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the problem of grounding abnormalities in medical images, where the goal is to localize clinical findings based on textual descriptions. While generalist Vision-Language Models (VLMs) excel in natural grounding tasks, they often struggle in the medical domain due to rare, compositional, and domain-specific terms that are poorly aligned with visual patterns. Specialized medical VLMs address this challenge via large-scale domain pretraining, but at the cost of substantial annotation and computational resources. To overcome these limitations, we propose \textbf{Knowledge to Sight (K2Sight)}, a framework that introduces structured semantic supervision by decomposing clinical concepts into interpretable visual attributes, such as shape, density, and anatomical location. These attributes are distilled from domain ontologies and encoded into concise instruction-style prompts, which guide region-text alignment during training. Unlike conventional report-level supervision, our approach explicitly bridges domain knowledge and spatial structure, enabling data-efficient training of compact models. We train compact models with 0.23B and 2B parameters using only 1.5\% of the data required by state-of-the-art medical VLMs. Despite their small size and limited training data, these models achieve performance on par with or better than 7B+ medical VLMs, with up to 9.82\% improvement in $mAP_{50}$. Code and models: \href{https://lijunrio.github.io/K2Sight/}{\textcolor{SOTAPink}{https://lijunrio.github.io/K2Sight/}}.
- Abstract(参考訳): 本研究は, 臨床像のテキスト記述に基づく局所化を目標とする医用画像における異常点の接地問題に対処するものである。
ヴィジュアル・ランゲージ・モデル(VLM)は、自然の接地作業において優れているが、しばしば、視覚パターンに不整合なまれ、構成的、ドメイン固有の用語のために、医療領域で苦しむ。
専門的な医療用VLMは、大規模なドメイン事前トレーニングを通じてこの問題に対処するが、かなりの注釈と計算資源を犠牲にしている。
これらの制約を克服するために,臨床概念を解釈可能な視覚属性(形状,密度,解剖学的位置など)に分解することで,構造的意味管理を導入するフレームワークである「K2Sight」(textbf{Knowledge to Sight)を提案する。
これらの属性はドメインオントロジーから抽出され、訓練中の領域とテキストのアライメントをガイドする簡潔な命令スタイルのプロンプトに符号化される。
従来のレポートレベルの監視とは違って,本手法はドメイン知識と空間構造を明確にブリッジし,コンパクトなモデルのデータ効率のトレーニングを可能にする。
我々は、最先端医療用VLMに必要なデータの1.5 %しか使用せず、0.23B と 2B のパラメータを持つコンパクトモデルを訓練する。
小型で限られた訓練データにもかかわらず、これらのモデルは7B以上の医療用VLMと同等以上の性能を達成し、最大9.82 %の改善を$mAP_{50}$で達成した。
コードとモデル: \href{https://lijunrio.github.io/K2Sight/}{\textcolor{SOTAPink}{https://lijunrio.github.io/K2Sight/}}。
関連論文リスト
- MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded Group Relative Policy Optimization [19.70803794316208]
医用画像グラウンドディング(MIG)は、テキスト記述に基づいて、医療画像内の特定の領域をローカライズする。
MIGの既存のビジョンランゲージモデル(VLM)は、大量のチェーン・オブ・ソート(CoT)推論アノテーションを持つスーパービジョンファインチューニング(SFT)に依存していることが多い。
本研究では,CoT推論アノテーションを使わずにモデルをトレーニングするための空間意味的回帰グループ相対ポリシー最適化を提案する。
論文 参考訳(メタデータ) (2025-07-01T21:51:42Z) - Leveraging the Structure of Medical Data for Improved Representation Learning [12.175375511821352]
一般化可能な医療AIシステムを構築するには、データ効率とドメイン認識の事前トレーニング戦略が必要である。
本稿では,医療データセットの固有構造を利用した自己教師型フレームワークを提案する。
教師付き目標やベースラインが構造を生かさずにトレーニングされているのに比べ、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-07-01T11:14:45Z) - Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [50.483761005446]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文 参考訳(メタデータ) (2025-05-21T05:16:45Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [46.99748372216857]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models [69.40730368630003]
医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。
画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - A Textbook Remedy for Domain Shifts: Knowledge Priors for Medical Image Analysis [48.84443450990355]
ディープネットワークは、医学的なスキャンに適用すると、例外のない状況で失敗することが多いため、自然画像の解析において広く成功している。
胸部X線や皮膚病変画像の文脈において、異なる病院から採取したデータや、性別、人種などの人口統計学的変数によって構築されたデータなど、ドメインシフトに対するモデル感度に焦点をあてる。
医学教育からインスピレーションを得て,自然言語で伝達される明示的な医学知識を基盤としたディープネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T17:55:02Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - MedContext: Learning Contextual Cues for Efficient Volumetric Medical Segmentation [25.74088298769155]
医用3次元セグメンテーションのためのユニバーサルトレーニングフレームワークMedContextを提案する。
本手法は,教師付きボクセルセグメンテーションタスクと協調して,自己教師付きコンテキストキューを効果的に学習する。
MedContextの有効性は、複数の3D医療データセットと4つの最先端モデルアーキテクチャで検証されている。
論文 参考訳(メタデータ) (2024-02-27T17:58:05Z) - Class Attention to Regions of Lesion for Imbalanced Medical Image
Recognition [59.28732531600606]
データ不均衡問題に対処するため,textbfClass textbfAttention to textbfRegions of the lesion (CARE)を提案する。
CAREフレームワークは、まれな疾患の病変領域を表すために、バウンディングボックスを必要とする。
その結果,自動バウンディングボックス生成によるCARE変種は,オリジナルのCAREフレームワークに匹敵することがわかった。
論文 参考訳(メタデータ) (2023-07-19T15:19:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - medXGAN: Visual Explanations for Medical Classifiers through a
Generative Latent Space [38.57696431713717]
本稿では,医用画像生成フレームワークであるmedXGANを提案する。
医用画像のドメイン知識を符号化することにより、解剖学的構造と病理を切り離すことができ、微細な可視化が可能となる。
本手法は,グラディエント重み付きクラスアクティベーションマッピング(Grad-CAM)や統合グラディエント(Integrated Gradients)などのベースラインを局所化や説明能力において上回る。
論文 参考訳(メタデータ) (2022-04-11T19:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。