論文の概要: Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis
- arxiv url: http://arxiv.org/abs/2405.08932v1
- Date: Tue, 14 May 2024 19:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 15:05:10.357508
- Title: Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis
- Title(参考訳): 骨X線解析のための深層学習表現の自己監督型視覚・言語アライメント
- Authors: Alexandre Englebert, Anne-Sophie Collin, Olivier Cornu, Christophe De Vleeschouwer,
- Abstract要約: 本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
- 参考スコア(独自算出の注目度): 53.809054774037214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes leveraging vision-language pretraining on bone X-rays paired with French reports to address downstream tasks of interest on bone radiography. A practical processing pipeline is introduced to anonymize and process French medical reports. Pretraining then consists in the self-supervised alignment of visual and textual embedding spaces derived from deep model encoders. The resulting image encoder is then used to handle various downstream tasks, including quantification of osteoarthritis, estimation of bone age on pediatric wrists, bone fracture and anomaly detection. Our approach demonstrates competitive performance on downstream tasks, compared to alternatives requiring a significantly larger amount of human expert annotations. Our work stands as the first study to integrate French reports to shape the embedding space devoted to bone X-Rays representations, capitalizing on the large quantity of paired images and reports data available in an hospital. By relying on generic vision-laguage deep models in a language-specific scenario, it contributes to the deployement of vision models for wider healthcare applications.
- Abstract(参考訳): 本稿では, 骨X線を用いた視覚言語事前訓練と, 骨X線撮影に関心のある下流の課題に対処するために, フランスの報告と組み合わせて行うことを提案する。
フランスの医療報告を匿名化し処理するために、実用的な処理パイプラインが導入された。
事前学習は、深層モデルエンコーダから派生した視覚的およびテキスト的埋め込み空間の自己教師付きアライメントで構成される。
得られた画像エンコーダは、変形性関節症の定量化、小児手首の骨年齢の推定、骨骨折、異常検出など、様々な下流作業に使用される。
提案手法は,人的専門家のアノテーションをはるかに多く必要とする代替手段と比較して,下流タスクの競合性能を示す。
我々の研究は、フランスのレポートを統合して、骨のX線表現にまつわる埋め込み空間を形作り、大量のペア画像と病院で利用可能なデータを活用した最初の研究である。
言語固有のシナリオにおいて、一般的なビジョンラゲージのディープモデルに頼ることにより、より広範な医療アプリケーションのためのビジョンモデルのデプロイに寄与する。
関連論文リスト
- CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting [0.0]
胸部X線解釈のための基礎的視覚言語モデルとして, 一般に公開されている技術の現状を評価した。
視覚言語モデルは、しばしば自信のある言語と幻覚し、臨床解釈を遅くする。
我々は,CheXagentの線形プローブとBioViL-Tのフレーズグラウンドティングツールを用いて,エージェントベースの視覚言語によるレポート生成手法を開発した。
論文 参考訳(メタデータ) (2024-07-11T18:39:19Z) - Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Representative Image Feature Extraction via Contrastive Learning
Pretraining for Chest X-ray Report Generation [19.69560434388278]
医療報告生成の目標は、画像の発見を正確に把握し、記述することである。
以前の作業では、さまざまなドメインで大規模なデータセットを使用して、視覚的エンコーディングニューラルネットワークを事前トレーニングしていた。
本稿では,視覚的エンコーダの事前学習に対照的な学習手法を用い,メタ情報を必要としないフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-04T12:07:19Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。