論文の概要: HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.00805v1
- Date: Sun, 01 Jun 2025 03:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.601632
- Title: HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models
- Title(参考訳): HSCR:医療ビジョン言語モデルの階層的自己コントラスト回帰
- Authors: Songtao Jiang, Yan Zhang, Yeying Jin, Zhihang Tang, Yangyang Wu, Yang Feng, Jian Wu, Zuozhu Liu,
- Abstract要約: 我々は,Med-VLMアライメントにおける2つの重要な課題に対処する新しいアプローチである階層型自己コントラスト・リワード(HSCR)を提案する。
HSCRは高品質な嗜好データを生成し、改善されたアライメントのためにニュアンス付きおよびコンテキスト対応の嗜好をキャプチャする。
- 参考スコア(独自算出の注目度): 23.158036246184174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Vision-Language Models (Med-VLMs) have achieved success across various tasks, yet most existing methods overlook the modality misalignment issue that can lead to untrustworthy responses in clinical settings. In this paper, we propose Hierarchical Self-Contrastive Rewarding (HSCR), a novel approach that addresses two critical challenges in Med-VLM alignment: 1) Cost-effective generation of high-quality preference data; 2) Capturing nuanced and context-aware preferences for improved alignment. HSCR first leverages the inherent capability of Med-VLMs to generate dispreferred responses with higher sampling probability. By analyzing output logit shifts after visual token dropout, we identify modality-coupled tokens that induce misalignment and derive an implicit alignment reward function. This function guides token replacement with hallucinated ones during decoding, producing high-quality dispreferred data. Furthermore, HSCR introduces a multi-level preference optimization strategy, which extends beyond traditional adjacent-level optimization by incorporating nuanced implicit preferences, leveraging relative quality in dispreferred data to capture subtle alignment cues for more precise and context-aware optimization. Extensive experiments across multiple medical tasks, including Med-VQA, medical image captioning and instruction following, demonstrate that HSCR not only enhances zero-shot performance but also significantly improves modality alignment and trustworthiness with just 2,000 training entries.
- Abstract(参考訳): 医療ビジョン・ランゲージモデル (Med-VLMs) は様々なタスクで成功しているが、既存のほとんどの手法は、臨床環境で不確実な反応を引き起こす可能性のあるモダリティの誤調整問題を見逃している。
本稿では,Herarchical Self-Contrastive Rewarding (HSCR)を提案する。
1)高品質の選好データのコスト効果発生
2)アライメント改善のためのニュアンスと文脈認識の嗜好の獲得。
HSCRはまず、Med-VLMsの本質的な能力を利用して、より高いサンプリング確率で非参照応答を生成する。
視覚的トークンドロップアウト後の出力ロジットシフトを解析することにより、不正調整を誘発し、暗黙のアライメント報酬関数を導出するモダリティ結合トークンを同定する。
この関数はデコード中のトークン置換を幻覚処理でガイドし、高品質な非推奨データを生成する。
さらに、HSCRは、非推奨データの相対的品質を活用して、より正確でコンテキスト対応の最適化のために微妙なアライメントキューをキャプチャする、従来の隣接レベル最適化を超えて拡張するマルチレベル優先最適化戦略を導入している。
Med-VQA、医用画像キャプション、インストラクションなど、複数の医療タスクにわたる大規模な実験は、HSCRがゼロショットのパフォーマンスを向上するだけでなく、2000のトレーニングエントリーでモダリティアライメントと信頼性を著しく向上することを示した。
関連論文リスト
- T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning [44.99833362998488]
医用画像解析のための階層的コントラストアライメント(HiCA)を用いた適応型視覚言語ファインタニングを提案する。
HiCAは、ドメイン固有の事前学習と階層的コントラスト学習を組み合わせて、視覚的およびテキスト的表現を複数のレベルで整列させる。
我々はChest X-rayとBreast Ultrasoundという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-01-16T05:01:30Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization [25.937453082034448]
我々は,新しいマルチモーダル医療優先最適化手法MMedPOを提案する。
MMedPOは、Med-LVLMアライメントを高めるために、嗜好サンプルの臨床的関連性を考慮する。
実験の結果,MMedPOはMed-LVLMの精度を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-09T01:50:39Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - A Knowledge-based Learning Framework for Self-supervised Pre-training
Towards Enhanced Recognition of Medical Images [14.304996977665212]
本研究では,医用画像の認識向上に向けた知識ベース学習フレームワークを提案する。
コントラスト学習と生成学習モデルを相乗化することで、3つのフェーズで機能する。
提案したフレームワークは、AUC/DiceのSimCLRよりも2.08, 1.23, 1.12, 0.76, 1.38ポイント改善された自己教師型ベンチマークで統計的に優れている。
論文 参考訳(メタデータ) (2022-11-27T03:58:58Z) - Greedy based Value Representation for Optimal Coordination in
Multi-agent Reinforcement Learning [64.05646120624287]
LVDとMVDの結合Q値関数を導出する。
最適な整合性を確保するために、最適なノードは独自のSTNである必要がある。
本手法は,様々なベンチマーク実験において,最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-22T08:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。