Fugu-MT 論文翻訳(概要): Robust Fairness Vision-Language Learning for Medical Image Analysis

論文の概要: Robust Fairness Vision-Language Learning for Medical Image Analysis

arxiv url: http://arxiv.org/abs/2505.03153v1
Date: Tue, 06 May 2025 03:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.194422
Title: Robust Fairness Vision-Language Learning for Medical Image Analysis
Title（参考訳）: 医用画像解析のためのロバストフェアネスビジョンランゲージ学習
Authors: Sparsh Bansal, Mingyang Wu, Xin Wang, Shu Hu,
Abstract要約: 視覚言語モデルの堅牢性と公平性を保証するための枠組みを導入する。このフレームワークは、故障した画像とテキストのペアを特定し調整することで、トレーニング時の損失関数を修正します。株式規模のAUCを見てみると8.6%の改善が見込まれる。
参考スコア（独自算出の注目度）: 11.848018894413556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of Vision-Language Models (VLMs) in medical image analysis has the potential to help process multimodal inputs and increase performance over traditional inference methods. However, when considering the domain in which these models will be implemented, fairness and robustness are important to ensure the model stays true for any patient. In this paper, we introduce a framework for ensuring robustness and fairness of VLM models. This framework modifies the loss function at training by identifying and adjusting faulty image-text pairs through a Dynamic Bad Pair Mining algorithm and also utilizing Sinkhorn distance to ensure the loss distributions of protected groups do not deviate from the total loss. Experimental testing of our framework shows up to a 8.6\% improvement when looking at equity-scaled AUC.
Abstract（参考訳）: 医用画像解析における視覚言語モデル(VLM)の出現は、マルチモーダル入力の処理を支援し、従来の推論手法よりも性能を向上させる可能性がある。しかしながら、これらのモデルが実装されるドメインを考えるとき、公平性と堅牢性は、どの患者に対してもモデルが真であることを保証するために重要である。本稿では,VLMモデルの堅牢性と公平性を保証するためのフレームワークを提案する。このフレームワークは、ダイナミックバッドペアマイニングアルゴリズムを用いて、故障した画像とテキストのペアを特定し調整し、またシンクホーン距離を利用して、保護されたグループの損失分布が総損失から逸脱しないようにすることで、トレーニング時の損失関数を変更する。エクイティスケールのAUCをみると、我々のフレームワークの実験的テストは8.6倍の改善が見込まれる。

関連論文リスト

Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文参考訳（メタデータ） (2026-02-04T13:51:15Z)
On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable? [0.9626666671366837]
我々は、複数の医療画像データセットに複数の摂動を適用した汚職ベンチマークであるMediMeta-Cを紹介する。本稿では,事前訓練されたMVLMの視覚的エンコーダ適応であるRobustMedCLIPを提案する。
論文参考訳（メタデータ） (2025-05-21T12:08:31Z)
Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文参考訳（メタデータ） (2025-04-21T04:01:22Z)
Analyzing the Effect of $k$-Space Features in MRI Classification Models [0.0]
医用イメージングに適した説明可能なAI手法を開発した。我々は、画像領域と周波数領域の両方にわたるMRIスキャンを分析する畳み込みニューラルネットワーク(CNN)を採用している。このアプローチは、初期のトレーニング効率を高めるだけでなく、追加機能がモデル予測にどのように影響するかの理解を深めます。
論文参考訳（メタデータ） (2024-09-20T15:43:26Z)
Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文参考訳（メタデータ） (2024-05-27T17:59:39Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。 CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文参考訳（メタデータ） (2024-03-15T17:33:49Z)
PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-08-08T01:55:44Z)
Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文参考訳（メタデータ） (2022-11-21T19:55:35Z)
Performance or Trust? Why Not Both. Deep AUC Maximization with Self-Supervised Learning for COVID-19 Chest X-ray Classifications [72.52228843498193]
ディープラーニングモデルのトレーニングでは、パフォーマンスと信頼の間に妥協をしなければなりません。本研究は、新型コロナウイルス患者のコンピュータ支援スクリーニングのための自己教師型学習と新しい代理損失を統合したものである。
論文参考訳（メタデータ） (2021-12-14T21:16:52Z)
Robustness in Deep Learning for Computer Vision: Mind the gap? [13.576376492050185]
我々は、コンピュータビジョンのためのディープラーニングにおいて、現在の定義と非敵対的堅牢性に向けての進歩を特定し、分析し、要約する。この研究の分野は、敵対的機械学習に対して、不当にあまり注目されていないことがわかりました。
論文参考訳（メタデータ） (2021-12-01T16:42:38Z)
Uncertainty-aware Generalized Adaptive CycleGAN [44.34422859532988]
unpaired image-to-image translationは、教師なしの方法で画像ドメイン間のマッピングを学ぶことを指す。既存の手法はしばしば、外れ値への堅牢性や予測不確実性を明示的にモデル化せずに決定論的マッピングを学習する。 Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC) という新しい確率論的手法を提案する。
論文参考訳（メタデータ） (2021-02-23T15:22:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。