論文の概要: Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench
- arxiv url: http://arxiv.org/abs/2601.02737v1
- Date: Tue, 06 Jan 2026 05:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.821489
- Title: Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench
- Title(参考訳): MLLMにおける機能的知覚ギャップの展開とブリッジ:PET-Benchによる原子視配向と階層的評価
- Authors: Zanting Ye, Xiaolong Niu, Xuanbin Wu, Xu Han, Shengyuan Liu, Jing Hao, Zhihao Peng, Hao Sun, Jieqin Lv, Fanghu Wang, Yanchao Huang, Hubing Wu, Yixuan Yuan, Habib Zaidi, Arman Rahmim, Yefeng Zheng, Lijun Lu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、異常検出や解剖学的モダリティのレポート生成などのタスクにおいて、顕著な熟練性を示した。
本研究では, 機能的トレーサの生体分布を, 形態的先行性とは無関係に復号化できない現状の視覚エンコーダについて, 基本的な機能的知覚ギャップを定量化する。
PET-Benchは52,308個の階層型QAペアからなるPET-Benchの最初の大規模機能評価ベンチマークである。
AVAは認知ギャップを効果的に橋渡しし、CoTを幻覚源から頑健な推論ツールに変換し、診断を改善していることを示す。
- 参考スコア(独自算出の注目度): 48.60251555171943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in tasks such as abnormality detection and report generation for anatomical modalities, their capability in functional imaging remains largely unexplored. In this work, we identify and quantify a fundamental functional perception gap: the inability of current vision encoders to decode functional tracer biodistribution independent of morphological priors. Identifying Positron Emission Tomography (PET) as the quintessential modality to investigate this disconnect, we introduce PET-Bench, the first large-scale functional imaging benchmark comprising 52,308 hierarchical QA pairs from 9,732 multi-site, multi-tracer PET studies. Extensive evaluation of 19 state-of-the-art MLLMs reveals a critical safety hazard termed the Chain-of-Thought (CoT) hallucination trap. We observe that standard CoT prompting, widely considered to enhance reasoning, paradoxically decouples linguistic generation from visual evidence in PET, producing clinically fluent but factually ungrounded diagnoses. To resolve this, we propose Atomic Visual Alignment (AVA), a simple fine-tuning strategy that enforces the mastery of low-level functional perception prior to high-level diagnostic reasoning. Our results demonstrate that AVA effectively bridges the perception gap, transforming CoT from a source of hallucination into a robust inference tool and improving diagnostic accuracy by up to 14.83%. Code and data are available at https://github.com/yezanting/PET-Bench.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、異常検出や解剖学的モダリティの報告生成などのタスクにおいて顕著な熟練性を示したが、機能画像におけるその能力は、まだ明らかにされていない。
本研究では, 機能的トレーサの生体分布を, 形態的先行性とは無関係に復号化できない現状の視覚エンコーダについて, 基本的な機能的知覚ギャップを同定し, 定量化する。
PET(Positron Emission Tomography)をこの切断を調査するための重要なモダリティとして同定し,9,732個の多点PET研究から52,308個の階層的QAペアからなる,最初の大規模機能画像ベンチマークであるPET-Benchを紹介する。
19種類の最先端MLLMの広範囲な評価により、CoT(Chain-of-Thought)幻覚トラップと呼ばれる危険な安全リスクが明らかとなった。
PETの視覚的エビデンスから言語生成をパラドックス的に切り離し,臨床的に流用するが,実際は接地しない診断を導出する標準CoTプロンプトが広く検討されている。
そこで我々は,高次診断推論に先立って,低次機能知覚の習得を強制する簡易な微調整戦略であるAtomic Visual Alignment (AVA)を提案する。
AVAは認知ギャップを効果的に橋渡しし、CoTを幻覚源から頑健な推論ツールに変換し、診断精度を最大14.83%向上させることを示した。
コードとデータはhttps://github.com/yezanting/PET-Bench.comで公開されている。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - PET2Rep: Towards Vision-Language Model-Drived Automated Radiology Report Generation for Positron Emission Tomography [24.091435019102587]
放射線学の報告は臨床的意思決定に不可欠であるが、その手作業による作成は労働集約的で時間を要する。
近年の視覚言語モデル(VLM)の進歩は医療応用において大きな可能性を秘めている。
PET画像の放射線診断レポート生成のための一般医用VLMの評価ベンチマークであるPET2Repを紹介する。
論文 参考訳(メタデータ) (2025-08-06T03:46:51Z) - Supervised Diffusion-Model-Based PET Image Reconstruction [44.89560992517543]
PET画像再構成の前兆として拡散モデル (DM) が導入された。
PET再構成のための教師付きDMベースアルゴリズムを提案する。
本手法はPETのポアソン確率モデルの非負性性を強制し,PET画像の広い範囲に適応する。
論文 参考訳(メタデータ) (2025-06-30T16:39:50Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - PAD-F: Prior-Aware Debiasing Framework for Long-Tailed X-ray Prohibited Item Detection [56.25222232778367]
実世界の禁止アイテム検出シナリオにおけるオブジェクトクラスの分布は、しばしばはっきりとした長い尾の分布を示す。
本稿では,2つの戦略を取り入れた新しいアプローチであるPAD-F(Presideed-Aware Debiasing Framework)を紹介する。
PAD-Fは複数の一般的な検出器の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-27T06:13:56Z) - From FDG to PSMA: A Hitchhiker's Guide to Multitracer, Multicenter Lesion Segmentation in PET/CT Imaging [0.9384264274298444]
本稿では,ResEncL アーキテクチャを用いた nnU-Net フレームワークを用いたマルチトラス,マルチセンタの一般化を目的とした AutoPET III チャレンジの解決策を提案する。
主なテクニックは、CT、MR、PETデータセット間での誤調整データ拡張とマルチモーダル事前トレーニングである。
Diceスコアが57.61となったデフォルトのnnU-Netと比較して、Diceスコアが68.40であり、偽陽性(FPvol: 7.82)と偽陰性(FNvol: 10.35)が減少している。
論文 参考訳(メタデータ) (2024-09-14T16:39:17Z) - Multi-modal Evidential Fusion Network for Trustworthy PET/CT Tumor Segmentation [5.839660501978193]
臨床環境では,PET画像とCT画像の画質は著しく変化し,ネットワークによって抽出されるモダリティ情報の不確実性が生じる。
我々は,CFL(Cross-Modal Feature Learning)とMTF(Multi-Modal Trustworthy Fusion)の2つの基本段階からなる,新しいMulti-Modal Evidential Fusion Network(MEFN)を提案する。
本モデルでは, 自動セグメンテーション結果の受け入れや拒絶の判断において, セグメンテーション結果の確実な不確実性を, 放射線技師に提供することができる。
論文 参考訳(メタデータ) (2024-06-26T13:14:24Z) - Bilinear pooling and metric learning network for early Alzheimer's
disease identification with FDG-PET images [0.293168019422713]
軽度認知障害(MCI)およびアルツハイマー病(AD)患者におけるFDG-PETによる脳代謝の変化
本稿では,地域間表現の特徴を抽出し,組込み空間によるハードサンプルの識別が可能な,新しいバイリニアプールとメートル法学習ネットワーク(BMNet)を提案する。
論文 参考訳(メタデータ) (2021-11-09T08:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。