論文の概要: Application Of Vision-Language Models For Assessing Osteoarthritis
Disease Severity
- arxiv url: http://arxiv.org/abs/2401.06331v1
- Date: Fri, 12 Jan 2024 02:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:31:02.319002
- Title: Application Of Vision-Language Models For Assessing Osteoarthritis
Disease Severity
- Title(参考訳): 変形性関節症重症度評価における視覚言語モデルの適用
- Authors: Banafshe Felfeliyan and Yuyue Zhou and Shrimanti Ghosh and Jessica
Kupper and Shaobo Liu and Abhilash Hareendranathan and Jacob L. Jaremko
- Abstract要約: 変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。
OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。
本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
- 参考スコア(独自算出の注目度): 0.43431539537721414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Osteoarthritis (OA) poses a global health challenge, demanding precise
diagnostic methods. Current radiographic assessments are time consuming and
prone to variability, prompting the need for automated solutions. The existing
deep learning models for OA assessment are unimodal single task systems and
they don't incorporate relevant text information such as patient demographics,
disease history, or physician reports. This study investigates employing Vision
Language Processing (VLP) models to predict OA severity using Xray images and
corresponding reports. Our method leverages Xray images of the knee and diverse
report templates generated from tabular OA scoring values to train a CLIP
(Contrastive Language Image PreTraining) style VLP model. Furthermore, we
incorporate additional contrasting captions to enforce the model to
discriminate between positive and negative reports. Results demonstrate the
efficacy of these models in learning text image representations and their
contextual relationships, showcase potential advancement in OA assessment, and
establish a foundation for specialized vision language models in medical
contexts.
- Abstract(参考訳): 変形性関節症(oa)は、正確な診断方法を要求する世界的な健康問題である。
現在のラジオグラフィー評価は時間がかかり、変動しやすいため、自動化されたソリューションが必要になります。
OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムであり、患者の人口統計、病歴、医師の報告など、関連するテキスト情報を含まない。
本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理(VLP)モデルを用いてOA重大度を予測する。
提案手法は,CLIP(Contrastive Language Image PreTraining)スタイルのVLPモデルをトレーニングするために,膝のX線画像と表在性OAスコアから生成される多様なレポートテンプレートを利用する。
さらに,肯定的なレポートと否定的なレポートの区別をモデルに強制するために,コントラストキャプションを付加する。
その結果,テキスト画像表現と文脈関係の学習におけるこれらのモデルの有効性を実証し,OAアセスメントの潜在的な進歩を示し,医学的文脈におけるビジョン言語モデルの基礎を確立した。
関連論文リスト
- Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Self-supervised Multi-modal Training from Uncurated Image and Reports
Enables Zero-shot Oversight Artificial Intelligence in Radiology [31.045221580446963]
医療用クロスアテンションビジョンランゲージモデル(医療用X-VL)を提案する。
我々のモデルは、ゼロショット分類からゼロショット誤り訂正まで、さまざまなゼロショットタスクを監視できる。
提案手法は,データ制限設定において特に有効であり,医療領域に広く適用可能である可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T04:35:58Z) - BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease
Diagnosis [42.917164607812886]
ヴィジュアル・アンド・ランゲージ(V&L)モデルは、画像とテキストを入力として取り、それら間の関連を捉えることを学ぶ。
BERTHopは、PixelHop++とVisualBERTをベースとしたトランスフォーマーベースのモデルで、2つのモダリティ間の関連をよりよく捉える。
論文 参考訳(メタデータ) (2021-08-10T21:51:25Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Automated Knee X-ray Report Generation [12.732469371097347]
本稿では,過去の放射線検査を活かし,画像とレポートの対応を学習できる枠組みを提案する。
本研究では,言語生成モデルの訓練において,個々の試験のイメージ特徴を集約し,条件入力として使用すると,自動生成試験レポートが生成されることを示す。
論文 参考訳(メタデータ) (2021-05-22T11:59:42Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - A Comparison of Pre-trained Vision-and-Language Models for Multimodal
Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。
先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文 参考訳(メタデータ) (2020-09-03T09:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。