論文の概要: RadJEPA: Radiology Encoder for Chest X-Rays via Joint Embedding Predictive Architecture
- arxiv url: http://arxiv.org/abs/2601.15891v1
- Date: Thu, 22 Jan 2026 12:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.592765
- Title: RadJEPA: Radiology Encoder for Chest X-Rays via Joint Embedding Predictive Architecture
- Title(参考訳): RadJEPA: 予測アーキテクチャを併用した胸部X線のための放射線エンコーダ
- Authors: Anas Anwarul Haq Khan, Mariam Husain, Kshitij Jadhav,
- Abstract要約: 言語を指導せずに学習する自己教師型フレームワークであるRadJEPAを紹介する。
モデルは、マスクされた画像領域の潜在表現を予測することを学ぶ。
本研究では,疾患分類,セマンティックセグメンテーション,レポート生成タスクについて,学習エンコーダの評価を行った。
- 参考スコア(独自算出の注目度): 0.8283940114367679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in medical vision language models guide the learning of visual representations; however, this form of supervision is constrained by the availability of paired image text data, raising the question of whether robust radiology encoders can be learned without relying on language supervision. In this work, we introduce RadJEPA, a self-supervised framework built on a Joint Embedding Predictive Architecture that learns without language supervision. Pre-trained solely on unlabeled chest X-ray images, the model learns to predict latent representations of masked image regions. This predictive objective differs fundamentally from both image text pre-training and DINO-style self-distillation: rather than aligning global representations across views or modalities, RadJEPA explicitly models latent-space prediction. We evaluate the learned encoder on disease classification, semantic segmentation, and report generation tasks. Across benchmarks, RadJEPA achieves performance exceeding state-of-the-art approaches, including Rad-DINO.
- Abstract(参考訳): 近年の医療ビジョン言語モデルの進歩は、視覚表現の学習を導くものであるが、この形式の監督は、ペア画像のテキストデータの利用によって制約されており、堅牢な放射線エンコーダが言語監督に頼ることなく学べるかどうかという疑問が提起されている。
本稿では,RadJEPAについて紹介する。RadJEPAは,言語を介さずに学習可能な,統合埋め込み予測アーキテクチャ上に構築された自己教師型フレームワークである。
未ラベルの胸部X線画像のみに基づいて事前訓練を行い、マスク画像領域の潜伏表現を予測する。
この予測目標は、画像テキストの事前学習とDINOスタイルの自己蒸留の両方とは根本的に異なり、ビューやモダリティをまたいでグローバルな表現を調整するのではなく、RadJEPAは遅延空間の予測を明示的にモデル化する。
本研究では,疾患分類,セマンティックセグメンテーション,レポート生成タスクについて,学習エンコーダの評価を行った。
ベンチマーク全体で、RadJEPAはRad-DINOを含む最先端のアプローチを上回るパフォーマンスを実現している。
関連論文リスト
- Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - Anatomical Attention Alignment representation for Radiology Report Generation [10.887845017050477]
Anatomical Attention Alignment Network (A3Net)は、超視覚的表現を構築することで視覚的テキスト理解を強化するフレームワークである。
本手法では,解剖学的構造とパッチレベルの視覚的特徴の知識辞書を統合し,画像領域を対応する解剖学的実体と効果的に関連付けることができる。
IU X-RayとMIMIC-CXRデータセットの実験結果から、A3Netは視覚知覚とテキスト生成品質の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-05-12T15:54:50Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Exploring scalable medical image encoders beyond text supervision [42.86944965225041]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Generalized Radiograph Representation Learning via Cross-supervision
between Images and Free-text Radiology Reports [40.42674870179363]
事前学習は、深層学習に支えられたラジオグラフィ解析における最近の成功の基礎を成している。
本稿では,Reviewing FreE-text Reports for Supervision (REFERS) という相互監督手法を提案する。
REFERSは、非常に限られた監督の下で、4つのよく知られたX線データセット上で、トランスファーラーニングと自己教師付き学習よりも優れています。
論文 参考訳(メタデータ) (2021-11-04T14:28:22Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。