論文の概要: MAVias: Mitigate any Visual Bias
- arxiv url: http://arxiv.org/abs/2412.06632v1
- Date: Mon, 09 Dec 2024 16:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:24.620523
- Title: MAVias: Mitigate any Visual Bias
- Title(参考訳): MAVias: ビジュアルバイアスを緩和する
- Authors: Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Christos Diou,
- Abstract要約: コンピュータビジョンモデルにおけるバイアスの緩和は、人工知能モデルの信頼性への重要なステップである。
我々は,基礎モデルを利用したオープンセットバイアス緩和手法であるMAViasを導入し,視覚属性と対象クラス間の刺激的な関連を見出す。
CelebA、Waterbirds、ImageNet、UrbanCarsなどの多様なデータセットに関する実験は、MAViasが視覚認識タスクの幅広いバイアスを効果的に検出し軽減し、最先端技術を上回ることを示しています。
- 参考スコア(独自算出の注目度): 19.140362626182856
- License:
- Abstract: Mitigating biases in computer vision models is an essential step towards the trustworthiness of artificial intelligence models. Existing bias mitigation methods focus on a small set of predefined biases, limiting their applicability in visual datasets where multiple, possibly unknown biases exist. To address this limitation, we introduce MAVias, an open-set bias mitigation approach leveraging foundation models to discover spurious associations between visual attributes and target classes. MAVias first captures a wide variety of visual features in natural language via a foundation image tagging model, and then leverages a large language model to select those visual features defining the target class, resulting in a set of language-coded potential visual biases. We then translate this set of potential biases into vision-language embeddings and introduce an in-processing bias mitigation approach to prevent the model from encoding information related to them. Our experiments on diverse datasets, including CelebA, Waterbirds, ImageNet, and UrbanCars, show that MAVias effectively detects and mitigates a wide range of biases in visual recognition tasks outperforming current state-of-the-art.
- Abstract(参考訳): コンピュータビジョンモデルにおけるバイアスの緩和は、人工知能モデルの信頼性への重要なステップである。
既存のバイアス緩和手法は、定義済みのバイアスの小さなセットに焦点を合わせ、複数の未知のバイアスが存在する視覚データセットに適用性を制限する。
この制限に対処するために,基礎モデルを利用したオープンセットバイアス緩和手法MAViasを導入する。
MAViasはまず、ファンデーションイメージタギングモデルを通じて自然言語の様々な視覚的特徴をキャプチャし、次に大きな言語モデルを利用してターゲットクラスを定義する視覚的特徴を選択する。
次に、この潜在的なバイアスのセットを視覚言語埋め込みに変換し、そのモデルがそれらに関連する情報をエンコードするのを防ぐために、プロセス内バイアス軽減アプローチを導入する。
CelebA、Waterbirds、ImageNet、UrbanCarsなどの多様なデータセットに関する実験は、MAViasが視覚認識タスクの幅広いバイアスを効果的に検出し軽減し、最先端技術を上回ることを示しています。
関連論文リスト
- GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。
このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。
このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文 参考訳(メタデータ) (2024-08-29T16:51:07Z) - Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective [13.486497323758226]
広範囲なデータセットで事前訓練された視覚言語モデルは、性情報とオブジェクトやシナリオを関連付けることによって、必然的にバイアスを学習することができる。
本稿では,因果媒介分析を取り入れた枠組みを提案し,バイアス発生と伝播の経路を計測・マッピングする。
論文 参考訳(メタデータ) (2024-07-03T05:19:45Z) - ViG-Bias: Visually Grounded Bias Discovery and Mitigation [3.626293818132902]
視覚的基底バイアス発見・緩和(ViG-Bias)を導入し,発見・緩和性能の向上を図る。
視覚的説明を取り入れることで、DOMINO、FACTS、Bias-to-Textといった既存の手法が強化されることを示す。
論文 参考訳(メタデータ) (2024-07-02T07:10:10Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Diagnosing and Rectifying Vision Models using Language [31.588965563961573]
最近のコントラスト学習モデルは、強力な視覚分類器を構築するのに適した埋め込み空間を学習できることを実証している。
我々の研究は、このマルチモーダル埋め込み空間の明確な利点として、自然言語で視覚分類器を診断する能力を挙げている。
提案手法は,ハイエラーデータスライスを発見し,重要な属性を同定し,さらに好ましくないモデルの振る舞いを補正する。
論文 参考訳(メタデータ) (2023-02-08T18:59:42Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。