Fugu-MT 論文翻訳(概要): A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports

論文の概要: A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports

arxiv url: http://arxiv.org/abs/2009.01523v1
Date: Thu, 3 Sep 2020 09:00:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-22 07:44:19.828979
Title: A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports
Title（参考訳）: 医用画像とレポートのマルチモーダル表現学習のための事前学習型視覚言語モデルの比較
Authors: Yikuan Li, Hanyin Wang and Yuan Luo
Abstract要約: 本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
参考スコア（独自算出の注目度）: 5.074841553282345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Joint image-text embedding extracted from medical images and associated contextual reports is the bedrock for most biomedical vision-and-language (V+L) tasks, including medical visual question answering, clinical image-text retrieval, clinical report auto-generation. In this study, we adopt four pre-trained V+L models: LXMERT, VisualBERT, UNIER and PixelBERT to learn multimodal representation from MIMIC-CXR radiographs and associated reports. The extrinsic evaluation on OpenI dataset shows that in comparison to the pioneering CNN-RNN model, the joint embedding learned by pre-trained V+L models demonstrate performance improvement in the thoracic findings classification task. We conduct an ablation study to analyze the contribution of certain model components and validate the advantage of joint embedding over text-only embedding. We also visualize attention maps to illustrate the attention mechanism of V+L models.
Abstract（参考訳）: 医用画像と関連する文脈報告から抽出された共同画像テキスト埋め込みは、医用視覚質問応答、臨床画像テキスト検索、臨床報告自動生成を含む、ほとんどの生体視覚言語(V+L)タスクの基盤となる。本研究では,LXMERT,VisualBERT,UNIER,PixelBERTの4つの事前学習V+Lモデルを用いて,MIMIC-CXRラジオグラフィーおよび関連レポートからマルチモーダル表現を学習する。 openiデータセットのextrinsic evaluationは、先駆的なcnn-rnnモデルと比較して、事前訓練されたv+lモデルで学習されたジョイント埋め込みが胸部所見分類タスクの性能向上を示していることを示している。我々は,特定のモデルコンポーネントの寄与を分析し,テキストのみの埋め込みによるジョイント埋め込みの利点を検証するため,アブレーション研究を行う。また、V+Lモデルの注意機構を視覚化する。

関連論文リスト

On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文参考訳（メタデータ） (2025-07-31T21:35:52Z)
On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation [0.7966328552094392]
病理学における視覚言語モデルにより、マルチモーダルケース検索と自動レポート生成が可能となる。これまで開発されたモデルの多くは、スライド画像全体から推測できない情報を含む病理報告に基づいて訓練されてきた。視覚言語モデリングのための病理報告からの情報選択がマルチモーダル表現の質や生成レポートにどのように影響するかを検討する。
論文参考訳（メタデータ） (2025-02-26T16:45:09Z)
Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文参考訳（メタデータ） (2025-01-07T01:19:48Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
Visual Prompt Engineering for Medical Vision Language Models in Radiology [0.1636269503300992]
ビジョン言語モデル(VLP)は、ゼロショットパフォーマンスの分類を改善するために学習を活用することで、有望なソリューションを提供する。本稿では,視覚的プロンプト工学の可能性を探究し,重要な領域への潜在的関心を高める。
論文参考訳（メタデータ） (2024-08-28T13:53:27Z)
Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis [3.8758525789991896]
医用画像や臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。医用画像では、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、重要な視覚情報をキャプチャした。臨床報告テキストでは,2方向の長期・短期記憶ネットワークと注意機構を組み合わせることで,深い意味理解を実現する。
論文参考訳（メタデータ） (2024-05-23T02:22:10Z)
Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文参考訳（メタデータ） (2024-05-14T19:53:20Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Application Of Vision-Language Models For Assessing Osteoarthritis Disease Severity [0.43431539537721414]
変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。 OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
論文参考訳（メタデータ） (2024-01-12T02:43:58Z)
IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文参考訳（メタデータ） (2023-10-11T10:12:43Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。