論文の概要: CheXPO-v2: Preference Optimization for Chest X-ray VLMs with Knowledge Graph Consistency
- arxiv url: http://arxiv.org/abs/2512.17213v1
- Date: Fri, 19 Dec 2025 03:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.240284
- Title: CheXPO-v2: Preference Optimization for Chest X-ray VLMs with Knowledge Graph Consistency
- Title(参考訳): CheXPO-v2:知識グラフ一貫性を持つ胸部X線VLMの優先度最適化
- Authors: Xiao Liang, Yuxuan An, Di Wang, Jiawei Hu, Zhicheng Jiao, Bin Jing, Quan Wang,
- Abstract要約: CheXPO-v2は、結果からプロセスの監視に移行するアライメントフレームワークである。
構造化された「障害、関係、解剖学」三つ子に推論ステップを明示的に解析することにより、微妙な監督を提供する。
CheXPO-v2は5kサンプルのみを使用して新しい最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 16.21196964897459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Vision-Language Models (VLMs) are prone to hallucinations, compromising clinical reliability. While reinforcement learning methods like Group Relative Policy Optimization (GRPO) offer a low-cost alignment solution, their reliance on sparse, outcome-based rewards inadvertently encourages models to "overthink" -- generating verbose, convoluted, and unverifiable Chain-of-Thought reasoning to justify answers. This focus on outcomes obscures factual errors and poses significant safety risks. To address this, we propose CheXPO-v2, a novel alignment framework that shifts from outcome to process supervision. Our core innovation is a Knowledge Graph Consistency Reward mechanism driven by Entity-Relation Matching. By explicitly parsing reasoning steps into structured "Disease, Relation, Anatomy" triplets, we provide fine-grained supervision that penalizes incoherent logic and hallucinations at the atomic level. Integrating this with a hard-example mining strategy, our approach significantly outperforms GRPO and state-of-the-art models on benchmarks like MIMIC-CXR-VQA. Crucially, CheXPO-v2 achieves new state-of-the-art accuracy using only 5k samples, demonstrating exceptional data efficiency while producing clinically sound and verifiable reasoning. The project source code is publicly available at: https://github.com/ecoxial2007/CheX-Phi4MM.
- Abstract(参考訳): 医療ビジョンランゲージモデル(VLM)は幻覚の傾向があり、臨床的信頼性を損なう。
Group Relative Policy Optimization (GRPO) のような強化学習手法は、低コストなアライメントソリューションを提供するが、その緩やかな結果に基づく報酬への依存は、不注意にもモデルに対して、答を正当化するために冗長で、複雑で、検証不可能な連鎖推論を生成することを"過度に"推奨する。
これは事実の誤りを曖昧にし、重大な安全性のリスクを生じさせる結果に焦点が当てられる。
そこで我々はCheXPO-v2を提案する。CheXPO-v2は、結果からプロセスの監督へ移行する新しいアライメントフレームワークである。
私たちの中心となるイノベーションは、エンティティ-リレーショナルマッチングによって駆動される知識グラフの一貫性の後退メカニズムです。
構造化された「障害、関係、解剖学」三つ子に推論ステップを明示的に解析することにより、原子レベルでの不整合論理と幻覚を罰するきめ細かい監督を提供する。
本手法は,MIMIC-CXR-VQAのようなベンチマーク上でのGRPOおよび最先端モデルよりも優れている。
重要なことに、CheXPO-v2は5kサンプルのみを使用して新しい最先端の精度を達成し、臨床の健全さと検証可能な推論を生み出しながら、例外的なデータ効率を示す。
プロジェクトのソースコードは、https://github.com/ecoxial2007/CheX-Phi4MMで公開されている。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Scoreformer: A Surrogate Model For Large-Scale Prediction of Docking Scores [0.0]
分子ドッキングスコアを正確に予測するために設計された新しいグラフトランスフォーマモデルであるScoreFormerを提案する。
ScoreFormerはドッキングスコア予測の競争性能を達成し、既存のモデルに比べて1.65倍の推論時間削減を実現している。
論文 参考訳(メタデータ) (2024-06-13T17:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。