論文の概要: AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation
- arxiv url: http://arxiv.org/abs/2601.03191v1
- Date: Tue, 06 Jan 2026 17:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.036971
- Title: AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation
- Title(参考訳): 胸部X線解釈のためのアナトミクス
- Authors: Anees Ur Rehman Hashmi, Numan Saeed, Christoph Lippert,
- Abstract要約: AnatomiXは、解剖学的に接地された胸部X線解釈のために設計されたマルチモーダルな大規模言語モデルである。
放射線学的ワークフローに触発され、解剖学的構造を特定し、特徴を抽出する。
次に、大きな言語モデルを活用して、フレーズグラウンド、レポート生成、視覚的質問応答、画像理解など、さまざまな下流タスクを実行する。
- 参考スコア(独自算出の注目度): 6.733106577457051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal medical large language models have shown impressive progress in chest X-ray interpretation but continue to face challenges in spatial reasoning and anatomical understanding. Although existing grounding techniques improve overall performance, they often fail to establish a true anatomical correspondence, resulting in incorrect anatomical understanding in the medical domain. To address this gap, we introduce AnatomiX, a multitask multimodal large language model explicitly designed for anatomically grounded chest X-ray interpretation. Inspired by the radiological workflow, AnatomiX adopts a two stage approach: first, it identifies anatomical structures and extracts their features, and then leverages a large language model to perform diverse downstream tasks such as phrase grounding, report generation, visual question answering, and image understanding. Extensive experiments across multiple benchmarks demonstrate that AnatomiX achieves superior anatomical reasoning and delivers over 25% improvement in performance on anatomy grounding, phrase grounding, grounded diagnosis and grounded captioning tasks compared to existing approaches. Code and pretrained model are available at https://github.com/aneesurhashmi/anatomix
- Abstract(参考訳): マルチモーダル医療大言語モデルは胸部X線解釈において顕著な進歩を見せているが、空間的推論や解剖学的理解において課題に直面し続けている。
既存の基盤技術は全体的なパフォーマンスを改善するが、それらは真の解剖学的対応を確立するのに失敗し、医療領域における誤った解剖学的理解をもたらす。
このギャップに対処するために,解剖学的に接地した胸部X線解釈のために設計されたマルチタスク・マルチモーダルな大規模言語モデルであるAnatomiXを紹介する。
まず、解剖学的構造を特定し、特徴を抽出し、次に大きな言語モデルを活用して、フレーズグラウンド、レポート生成、視覚的質問応答、画像理解といったさまざまな下流タスクを実行する。
複数のベンチマークにわたる大規模な実験により、AnatomiXは解剖学的推論に優れ、解剖学的グラウンドディング、フレーズグラウンドディング、グラウンドド診断、グラウンドドキャプションタスクにおいて、既存のアプローチと比較して25%以上のパフォーマンス向上を実現していることが示された。
コードと事前トレーニングされたモデルはhttps://github.com/aneesurhashmi/anatomixで公開されている。
関連論文リスト
- Anatomy-R1: Enhancing Anatomy Reasoning in Multimodal Large Language Models via Anatomical Similarity Curriculum and Group Diversity Augmentation [52.7583577508452]
MLLM(Multimodal Large Language Models)は自然画像推論において顕著な進歩を遂げている。
医用画像におけるその潜在性は、特に臨床解剖学的外科画像では未発見のままである。
これらの課題は、従来のSupervised Fine-Tuning戦略の有効性を制限する。
論文 参考訳(メタデータ) (2025-12-22T16:06:36Z) - Multi Anatomy X-Ray Foundation Model [7.079609136804425]
自己教師付き学習を用いたマルチ解剖学的X線基礎モデルであるXR-0を紹介する。
XR-0は、ほとんどのマルチ解剖学タスクで最先端のパフォーマンスを達成し、胸部固有のベンチマークで競争力を維持する。
論文 参考訳(メタデータ) (2025-09-15T17:12:26Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - ChEX: Interactive Localization and Region Description in Chest X-rays [15.57447423062306]
レポート生成モデルは、胸部X線のような医療画像の微細なテキスト解釈を提供する。
レポート生成モデルは、しばしば相互作用性(すなわち、ユーザクエリを通じて生成プロセスをステアリングする能力)と局所的解釈可能性に欠ける。
本稿では,テキストプロンプトとバウンディングボックスを統合した新しいマルチタスクアーキテクチャとトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:44:44Z) - XReal: Realistic Anatomy and Pathology-Aware X-ray Generation via Controllable Diffusion Model [0.7381551917607596]
大規模な生成モデルは、視覚的に魅力的な画像を生成するという印象的な能力を示している。
しかし、彼らは幻覚障害や解剖学的に不正確なアウトプットの発生に悩まされ続けている。
胸部X線画像を生成するための新しい制御可能な拡散モデルであるXRealを提案する。
論文 参考訳(メタデータ) (2024-03-14T10:03:58Z) - Anatomically-Controllable Medical Image Generation with Segmentation-Guided Diffusion Models [11.835841459200632]
解剖学的に制御可能な医用画像生成を支援する拡散モデルに基づく手法を提案する。
また, ランダムマスクアブレーショントレーニングアルゴリズムを導入し, 解剖学的制約の組合せの条件付けを可能にする。
SegGuidedDiffは、生成した画像の忠実さを新たな最先端に到達して、解剖学的マスクを入力します。
論文 参考訳(メタデータ) (2024-02-07T19:35:09Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Improving Radiology Summarization with Radiograph and Anatomy Prompts [60.30659124918211]
本稿では,印象生成を促進するために,新しい解剖学的拡張型マルチモーダルモデルを提案する。
より詳しくは、まず、解剖学を抽出する一連のルールを構築し、各文にこれらのプロンプトを配置し、解剖学的特徴を強調する。
コントラスト学習モジュールを用いて、これらの2つの表現を全体レベルで整列させ、コアテンションを用いて文レベルで融合させる。
論文 参考訳(メタデータ) (2022-10-15T14:05:03Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。