Fugu-MT 論文翻訳(概要): PhenoLIP: Integrating Phenotype Ontology Knowledge into Medical Vision-Language Pretraining

論文の概要: PhenoLIP: Integrating Phenotype Ontology Knowledge into Medical Vision-Language Pretraining

arxiv url: http://arxiv.org/abs/2602.06184v1
Date: Thu, 05 Feb 2026 20:44:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.106241
Title: PhenoLIP: Integrating Phenotype Ontology Knowledge into Medical Vision-Language Pretraining
Title（参考訳）: フェノLIP: フェノタイプオントロジー知識を医用ビジョンランゲージ・プレトレーニングに統合する
Authors: Cheng Liang, Chaoyi Wu, Weike Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie,
Abstract要約: PhenoLIPは、構造化表現型知識を医療画像理解に組み込む新しい事前学習フレームワークである。 PhenoLIPは、医学画像理解における最先端のアプローチよりも優れている。
参考スコア（独自算出の注目度）: 71.60950593762719
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in large-scale CLIP-like vision-language models(VLMs) has greatly advanced medical image analysis. However, most existing medical VLMs still rely on coarse image-text contrastive objectives and fail to capture the systematic visual knowledge encoded in well-defined medical phenotype ontologies. To address this gap, we construct PhenoKG, the first large-scale, phenotype-centric multimodal knowledge graph that encompasses over 520K high-quality image-text pairs linked to more than 3,000 phenotypes. Building upon PhenoKG, we propose PhenoLIP, a novel pretraining framework that explicitly incorporates structured phenotype knowledge into medical VLMs through a two-stage process. We first learn a knowledge-enhanced phenotype embedding space from textual ontology data and then distill this structured knowledge into multimodal pretraining via a teacher-guided knowledge distillation objective. To support evaluation, we further introduce PhenoBench, an expert-verified benchmark designed for phenotype recognition, comprising over 7,800 image--caption pairs covering more than 1,000 phenotypes. Extensive experiments demonstrate that PhenoLIP outperforms previous state-of-the-art baselines, improving upon BiomedCLIP in phenotype classification accuracy by 8.85\% and BIOMEDICA in cross-modal retrieval by 15.03%, underscoring the value of integrating phenotype-centric priors into medical VLMs for structured and interpretable medical image understanding.
Abstract（参考訳）: 大規模CLIP様視覚言語モデル(VLM)の最近の進歩は、医療画像解析に大きく進歩している。しかしながら、既存の医療用VLMの多くは、いまだに粗い画像テキストコントラストの目的に依存しており、明確に定義された医療用表現型オントロジーで符号化された体系的な視覚知識を捉えていない。このギャップに対処するため、PhenoKGは、3000以上の表現型にリンクされた520K以上の高品質な画像テキストペアを含む、最初の大規模で表現型中心のマルチモーダル知識グラフである。 PhenoKGをベースとしたPhenoLIPは,2段階のプロセスを通じて構造化表現型知識を医療用VLMに明示的に組み込む,新しい事前学習フレームワークである。まず、テキストオントロジーデータから知識に富んだ表現型埋め込み空間を学習し、その構造化された知識を教師が指導する知識蒸留の目的を通じて、マルチモーダル事前学習に蒸留する。評価を支援するために,1000以上の表現型をカバーする7,800以上のイメージキャプションペアからなる表現型認識のための専門家検証ベンチマークであるPhenoBenchを紹介する。大規模な実験により、PhenoLIPは従来の最先端のベースラインを上回り、表現型分類精度が8.85\%向上し、BIOMEDICAが15.03%向上し、表現型中心の先行要素を構造化および解釈可能な医用画像理解のための医療用VLMに統合する価値が強調された。

関連論文リスト

MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment [12.665019147690975]
MAKEはゼロショット皮膚科学タスクのための視覚言語事前学習フレームワークである。臨床物語を知識に富んだサブテキストに分解する。臨床上の意義に基づいて、異なるサブカプセルを優先順位付けする。
論文参考訳（メタデータ） (2025-05-14T13:24:08Z)
An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training [40.16314726875265]
ConceptCLIPは、最先端の診断精度を達成する最初の説明可能なバイオメディカル基礎モデルである。本研究では,グローバルな画像テキスト表現と細粒度領域概念関連を同時に学習する,新しいデュアルアライメントアプローチにより,概念CLIPを開発する。
論文参考訳（メタデータ） (2025-01-26T16:07:11Z)
ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
An evaluation of GPT models for phenotype concept recognition [0.4715973318447338]
臨床表現型および表現型アノテーションのためのGPT(Generative Pre-trained Transformer)モデルの性能について検討した。その結果、適切な設定で、これらのモデルが芸術的パフォーマンスの状態を達成できることが示されている。
論文参考訳（メタデータ） (2023-09-29T12:06:55Z)
Exploring the In-context Learning Ability of Large Language Model for Biomedical Concept Linking [4.8882241537236455]
本研究では,生物医学的概念リンクのための大規模モデルのコンテキスト内学習機能を活用する手法について検討する。提案手法は2段階のレトリーブ・アンド・ランク・フレームワークを採用する。 BC5CDRの病体正規化では90.%、化学体正規化では94.7%の精度を達成した。
論文参考訳（メタデータ） (2023-07-03T16:19:50Z)
PheME: A deep ensemble framework for improving phenotype prediction from multi-modal data [42.56953523499849]
PheMEは, 構造化EHRのマルチモーダルデータを用いたアンサンブル・フレームワークであり, 非構造化臨床ノートを用いて, 正確なフェノタイプ予測を行う。我々はアンサンブル学習を活用し、単一モーダルモデルと多モーダルモデルからの出力を組み合わせて表現型予測を改善する。
論文参考訳（メタデータ） (2023-03-19T23:41:04Z)
Unsupervised ensemble-based phenotyping helps enhance the discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文参考訳（メタデータ） (2023-01-07T18:36:44Z)
Few-Shot Meta Learning for Recognizing Facial Phenotypes of Genetic Disorders [55.41644538483948]
分類の自動化と類似性検索は、医師が可能な限り早期に遺伝状態の診断を行うための意思決定を支援する。従来の研究は分類問題としてこの問題に対処し、深層学習法を用いてきた。本研究では,健常人の大規模なコーパスで訓練した顔認識モデルを用いて,顔の表情認識に移行した。
論文参考訳（メタデータ） (2022-10-23T11:52:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。