論文の概要: Regulating Anatomy-Aware Rewards via Trajectory-Integral Feedback for Volumetric Computed Tomography Analysis
- arxiv url: http://arxiv.org/abs/2605.20277v1
- Date: Tue, 19 May 2026 04:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.261834
- Title: Regulating Anatomy-Aware Rewards via Trajectory-Integral Feedback for Volumetric Computed Tomography Analysis
- Title(参考訳): 体積CT解析のための軌道内フィードバックによる解剖学的再帰の制御
- Authors: Tianwei Lin, Zhongwei Qiu, Jie Cao, Jiang Liu, Wenjie Yan, Bo Zhang, Yu Zhong, Wenqiao Zhang, Yingda Xia, Ling Zhang,
- Abstract要約: 我々は,放射線学報告を検証可能な臨床的意味単位に分解する構造化システムであるtextbfClinical Abnormality Benchmarking Substrate (CABS) を導入する。
制御理論の原理を政策最適化に組み込んだ新しいフレームワークである textbfTrajectory-Integral FeedbackO (TIF-GRPO) を提案する。
- 参考スコア(独自算出の注目度): 30.439440028190944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-language models (VLMs) have rapidly advanced as general-purpose multimodal assistants, yet their deployment in 3D Computed Tomography (CT) analysis remains constrained by a persistent mismatch between optimization objectives and clinical rigor. Current Reinforcement Learning (RL) paradigms still rely on lexical proxy signals that induce ``\textit{Evaluation Hallucinations}'', where models optimize linguistic fluency rather than factual clinical correctness, leading to diagnostically critical errors. To bridge this gap, we introduce the \textbf{Clinical Abnormality Benchmarking Substrate (CABS)}, a structured system that decomposes radiology reports into verifiable clinical semantic units. Using CABS, we identify a ``\textit{Mechanistic Divergence}'' in standard RL, where surface-similarity rewards drive policy gradients to bypass medical facts. We therefore propose \textbf{Trajectory-Integral Feedback GRPO (TIF-GRPO)}, a novel framework integrating control-theoretic principles into policy optimization. By formulating clinical reasoning as a pseudo-temporal trajectory for anomaly discovery, TIF-GRPO regulates anatomy-aware rewards via an integral feedback loop that penalizes persistent omissions as cumulative state errors and suppresses hallucinations as excessive control effort. Experiments on 3D CT benchmarks demonstrate that our approach significantly enhances abnormality detection and clinical faithfulness, establishing a new paradigm for fine-grained regulation in medical VLMs. Our project is available at \href{https://github.com/ZJU4HealthCare/TIF-GRPO}{GitHub}.
- Abstract(参考訳): 医用視覚言語モデル(VLM)は, 汎用マルチモーダルアシスタントとして急速に進歩してきたが, 3次元CT(CT)解析への展開は, 最適化目的と臨床厳密さの持続的ミスマッチによって制限されている。
現在の強化学習(RL)のパラダイムは、"`\textit{Evaluation Hallucinations}'' を誘導する語彙的プロキシ信号に依存しており、モデルが実際の臨床的正確性よりも言語流布を最適化し、診断的に致命的なエラーを引き起こす。
このギャップを埋めるために,放射線学報告を検証可能な臨床的意味単位に分解する構造化システムであるCABS(textbf{Clinical Abnormality Benchmarking Substrate)を導入する。
CABSを用いて標準的なRLにおける ``\textit{Mechanistic Divergence}'' を同定する。
そこで我々は,制御理論の原理を政策最適化に取り入れた新しいフレームワークである「textbf{Trajectory-Integral Feedback GRPO (TIF-GRPO)} を提案する。
異常発見のための疑似時間軌道として臨床推論を定式化することにより、TIF-GRPOは、持続的欠失を累積状態エラーとして罰し、過剰な制御努力として幻覚を抑制する積分フィードバックループを介して解剖学的報酬を規制する。
3次元CTベンチマーク実験により,本手法は異常検出と臨床的忠実度を大幅に向上させ,医用VLMの微細化制御のための新たなパラダイムを確立した。
私たちのプロジェクトは \href{https://github.com/ZJU4HealthCare/TIF-GRPO}{GitHub} で利用可能です。
関連論文リスト
- CA-GCL: Cross-Anatomy Global-Local Contrastive Learning for Robust 3D Medical Image Understanding [10.148965935742543]
3次元医用画像の理解において、微粒な視線前訓練は有意な可能性を秘めている。
既存のパラダイムは、しばしばテキスト埋め込み空間において深刻な表現の崩壊に悩まされる。
この分布の縮退は、モデルに過敏な変化を誘発し、信頼性の高い臨床展開を妨げる。
本稿では,これらの課題に対処する新しいクロス・解剖学的グローバル・ローカル・コントラシティブ・ラーニング・フレームワーク(CA-GCL)を提案する。
論文 参考訳(メタデータ) (2026-05-13T13:54:27Z) - KEPIL: Knowledge-Enhanced Prompt-Image Learning for Prompt-Robust Disease Detection [6.447908430647854]
放射線学的所見は、実際には長い尾を持つが、いくつかの条件は表現されておらず、ゼロショット推論が不可欠である。
我々は、ゼロショットの一般化を安定させるために、キュレートされた医療知識を統合するプロンプトロバストフレームワークであるtextitKEPILを提案する。
論文 参考訳(メタデータ) (2026-05-09T19:29:01Z) - Graph-Augmented Topological Internalization with Dual-Stream Classifiers for Medical Report Generation [3.3887144970801555]
トポロジカル内部化を用いたグラフ拡張型デュアルストリーム医療レポート生成法(GDMRG)を提案する。
本フレームワークでは,グローバルな疾患の共起を前提としたパラメータ化重み行列を生成するトポロジカル・ナレッジ・インサイナライゼーション・モジュールであるTKIを導入する。
MIMIC-CXRデータセットの実験は、GDMRGが自然言語の流速を維持しながら競争力のある臨床効果CEを達成することを示した。
論文 参考訳(メタデータ) (2026-05-04T09:17:27Z) - MedScribe: Clinically Grounded CT Reporting through Agentic Workflows [13.40306812882295]
視覚言語モデル(VLM)は、自動放射線診断レポート生成の可能性を示している。
我々は,仮説駆動型フレームワークであるMedScribeを紹介し,レポート生成を反復的証拠取得プロセスとして再構築する。
論文 参考訳(メタデータ) (2026-05-03T08:32:40Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation [12.0982298854338]
Continual Test-Time Adaptation (CTTA)は、トレーニング済みのモデルが、ラベルなしドメインの継続的な変更に適応できるようにすることを目的としている。
医用画像セグメンテーションのためのセマンティック・プロンプト拡張グラフクラスタリング(SPEGC)によるCTTAを提案する。
論文 参考訳(メタデータ) (2026-03-12T03:22:43Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。