論文の概要: FairLLaVA: Fairness-Aware Parameter-Efficient Fine-Tuning for Large Vision-Language Assistants
- arxiv url: http://arxiv.org/abs/2603.26008v1
- Date: Fri, 27 Mar 2026 01:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.325399
- Title: FairLLaVA: Fairness-Aware Parameter-Efficient Fine-Tuning for Large Vision-Language Assistants
- Title(参考訳): FairLLaVA:大規模視覚言語支援のためのフェアネスを考慮したパラメータ効率の良いファインチューニング
- Authors: Mahesh Bhosale, Abdul Wasi, Shantam Srivastava, Shifa Latif, Tianyu Luan, Mingchen Gao, David Doermann, Xuan Gong,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、人口集団間で不均一なパフォーマンスを示し、公正なリスクを強調します。
視覚的インストラクションチューニングにおけるグループ差を緩和するパラメータ効率の良い微調整法であるFairLLaVAを紹介する。
大規模な胸部X線撮影報告と皮膚内視鏡的視覚質問応答ベンチマークの実験により,FairLLaVAは群間格差を一貫して減少させることが示された。
- 参考スコア(独自算出の注目度): 12.849143597169801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While powerful in image-conditioned generation, multimodal large language models (MLLMs) can display uneven performance across demographic groups, highlighting fairness risks. In safety-critical clinical settings, such disparities risk producing unequal diagnostic narratives and eroding trust in AI-assisted decision-making. While fairness has been studied extensively in vision-only and language-only models, its impact on MLLMs remains largely underexplored. To address these biases, we introduce FairLLaVA, a parameter-efficient fine-tuning method that mitigates group disparities in visual instruction tuning without compromising overall performance. By minimizing the mutual information between target attributes, FairLLaVA regularizes the model's representations to be demographic-invariant. The method can be incorporated as a lightweight plug-in, maintaining efficiency with low-rank adapter fine-tuning, and provides an architecture-agnostic approach to fair visual instruction following. Extensive experiments on large-scale chest radiology report generation and dermoscopy visual question answering benchmarks show that FairLLaVA consistently reduces inter-group disparities while improving both equity-scaled clinical performance and natural language generation quality across diverse medical imaging modalities. Code can be accessed at https://github.com/bhosalems/FairLLaVA.
- Abstract(参考訳): 画像条件付き生成において強力である一方、マルチモーダル大言語モデル(MLLM)は、人口集団間で不均一なパフォーマンスを示し、公正なリスクを浮き彫りにすることができる。
安全クリティカルな臨床環境では、このような格差は、不平等な診断物語を生み出し、AI支援による意思決定に対する信頼を損なうリスクがある。
公平性は視覚のみおよび言語のみのモデルで広く研究されているが、MLLMへの影響はいまだに未調査である。
このようなバイアスに対処するために,FairLLaVAというパラメータ効率のよい微調整手法を導入する。
FairLLaVAは、ターゲット属性間の相互情報を最小化することで、モデルの表現を人口統計学的不変性に調整する。
この方法は軽量なプラグインとして組み込むことができ、低ランクのアダプタを微調整することで効率を保ち、アーキテクチャに依存しない方法で視覚的指示に従うことができる。
大規模胸部X線撮影レポートと皮膚内視鏡検査による視覚質問応答ベンチマークの広範囲な実験により,FairLLaVAは群間格差を一貫して低減し,医療画像の多彩なモダリティにまたがるエクイティスケールの臨床的パフォーマンスと自然言語生成の質を改善した。
コードはhttps://github.com/bhosalems/FairLLaVAでアクセスできる。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Benchmarking Bias Mitigation Toward Fairness Without Harm from Vision to LVLMs [14.88523903012028]
実世界のデータに基づいてトレーニングされた機械学習モデルは、特定の社会的グループに対するバイアスを継承し、増幅することが多い。
我々は、標準化されたデータ、メトリクス、トレーニングプロトコルの下で、公正性を損なうことなく統一されたベンチマークであるNH-Fairを紹介する。
論文 参考訳(メタデータ) (2026-02-03T08:37:37Z) - Fairness in Multi-modal Medical Diagnosis with Demonstration Selection [45.767489124851814]
人口動態的バランスと意味論的関連性のあるデモを構築するフェアネス・アウェア・デモ・セレクション(FADS)を提案する。
FADSは、性別、人種、民族に関する格差を一貫して減らし、高い精度を維持している。
これらの結果は、公平な医用画像推論のためのスケーラブルでデータ効率のよいソリューションとして、フェアネスを意識したコンテキスト内学習の可能性を強調している。
論文 参考訳(メタデータ) (2025-11-20T02:38:00Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。