Fugu-MT 論文翻訳(概要): Application Of Vision-Language Models For Assessing Osteoarthritis Disease Severity

論文の概要: Application Of Vision-Language Models For Assessing Osteoarthritis Disease Severity

arxiv url: http://arxiv.org/abs/2401.06331v1
Date: Fri, 12 Jan 2024 02:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 20:31:02.319002
Title: Application Of Vision-Language Models For Assessing Osteoarthritis Disease Severity
Title（参考訳）: 変形性関節症重症度評価における視覚言語モデルの適用
Authors: Banafshe Felfeliyan and Yuyue Zhou and Shrimanti Ghosh and Jessica Kupper and Shaobo Liu and Abhilash Hareendranathan and Jacob L. Jaremko
Abstract要約: 変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。 OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
参考スコア（独自算出の注目度）: 0.43431539537721414
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Osteoarthritis (OA) poses a global health challenge, demanding precise diagnostic methods. Current radiographic assessments are time consuming and prone to variability, prompting the need for automated solutions. The existing deep learning models for OA assessment are unimodal single task systems and they don't incorporate relevant text information such as patient demographics, disease history, or physician reports. This study investigates employing Vision Language Processing (VLP) models to predict OA severity using Xray images and corresponding reports. Our method leverages Xray images of the knee and diverse report templates generated from tabular OA scoring values to train a CLIP (Contrastive Language Image PreTraining) style VLP model. Furthermore, we incorporate additional contrasting captions to enforce the model to discriminate between positive and negative reports. Results demonstrate the efficacy of these models in learning text image representations and their contextual relationships, showcase potential advancement in OA assessment, and establish a foundation for specialized vision language models in medical contexts.
Abstract（参考訳）: 変形性関節症(oa)は、正確な診断方法を要求する世界的な健康問題である。現在のラジオグラフィー評価は時間がかかり、変動しやすいため、自動化されたソリューションが必要になります。 OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムであり、患者の人口統計、病歴、医師の報告など、関連するテキスト情報を含まない。本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理(VLP)モデルを用いてOA重大度を予測する。提案手法は,CLIP(Contrastive Language Image PreTraining)スタイルのVLPモデルをトレーニングするために,膝のX線画像と表在性OAスコアから生成される多様なレポートテンプレートを利用する。さらに,肯定的なレポートと否定的なレポートの区別をモデルに強制するために,コントラストキャプションを付加する。その結果,テキスト画像表現と文脈関係の学習におけるこれらのモデルの有効性を実証し,OAアセスメントの潜在的な進歩を示し,医学的文脈におけるビジョン言語モデルの基礎を確立した。

関連論文リスト

On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文参考訳（メタデータ） (2025-07-31T21:35:52Z)
Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文参考訳（メタデータ） (2025-07-29T13:31:24Z)
On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation [0.7966328552094392]
病理学における視覚言語モデルにより、マルチモーダルケース検索と自動レポート生成が可能となる。これまで開発されたモデルの多くは、スライド画像全体から推測できない情報を含む病理報告に基づいて訓練されてきた。視覚言語モデリングのための病理報告からの情報選択がマルチモーダル表現の質や生成レポートにどのように影響するかを検討する。
論文参考訳（メタデータ） (2025-02-26T16:45:09Z)
Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文参考訳（メタデータ） (2025-01-31T12:23:50Z)
CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting [0.0]
胸部X線解釈のための基礎的視覚言語モデルとして, 一般に公開されている技術の現状を評価した。視覚言語モデルは、しばしば自信のある言語と幻覚し、臨床解釈を遅くする。我々は,CheXagentの線形プローブとBioViL-Tのフレーズグラウンドティングツールを用いて,エージェントベースの視覚言語によるレポート生成手法を開発した。
論文参考訳（メタデータ） (2024-07-11T18:39:19Z)
Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文参考訳（メタデータ） (2024-05-14T19:53:20Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文参考訳（メタデータ） (2022-09-28T10:27:10Z)
Self-supervised Multi-modal Training from Uncurated Image and Reports Enables Zero-shot Oversight Artificial Intelligence in Radiology [31.045221580446963]
医療用クロスアテンションビジョンランゲージモデル(医療用X-VL)を提案する。我々のモデルは、ゼロショット分類からゼロショット誤り訂正まで、さまざまなゼロショットタスクを監視できる。提案手法は,データ制限設定において特に有効であり,医療領域に広く適用可能である可能性が示唆された。
論文参考訳（メタデータ） (2022-08-10T04:35:58Z)
Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。本稿では,自動レポート生成のための変分トピック推論を提案する。
論文参考訳（メタデータ） (2021-07-15T13:34:38Z)
Automated Knee X-ray Report Generation [12.732469371097347]
本稿では,過去の放射線検査を活かし,画像とレポートの対応を学習できる枠組みを提案する。本研究では,言語生成モデルの訓練において,個々の試験のイメージ特徴を集約し,条件入力として使用すると,自動生成試験レポートが生成されることを示す。
論文参考訳（メタデータ） (2021-05-22T11:59:42Z)
Variational Knowledge Distillation for Disease Classification in Chest X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文参考訳（メタデータ） (2021-03-19T14:13:56Z)
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文参考訳（メタデータ） (2020-09-03T09:00:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。