論文の概要: Debias your Large Multi-Modal Model at Test-Time with Non-Contrastive Visual Attribute Steering
- arxiv url: http://arxiv.org/abs/2411.12590v1
- Date: Fri, 15 Nov 2024 20:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:38.985893
- Title: Debias your Large Multi-Modal Model at Test-Time with Non-Contrastive Visual Attribute Steering
- Title(参考訳): 非コントラスト型視覚属性ステアリングによる大規模マルチモーダルモデルのデバイアス
- Authors: Neale Ratzlaff, Matthew Lyle Olson, Musashi Hinck, Estelle Aflalo, Shao-Yen Tseng, Vasudev Lal, Phillip Howard,
- Abstract要約: 大規模マルチモーダルモデル(LMM)のための新しいデバイアス化フレームワークを提案する。
提案手法は,1つの画像と対象属性のリストが与えられた場合,画像自体の勾配降下の1ステップで対応する表現をアブレーションすることができる。
我々の実験は、LMMが保護属性に関連するテキストを生成することの妥当性を最小化できるだけでなく、感情を改善し、単に合成データを使ってアブレーションを知らせることさえできることを示した。
- 参考スコア(独自算出の注目度): 7.471995248769638
- License:
- Abstract: Large Multi-Modal Models (LMMs) have demonstrated impressive capabilities as general-purpose chatbots that can engage in conversations about a provided input, such as an image. However, their responses are influenced by societal biases present in their training datasets, leading to undesirable differences in how the model responds when presented with images depicting people of different demographics. In this work, we propose a novel debiasing framework for LMMs that directly removes biased representations during text generation to decrease outputs related to protected attributes, or even representing them internally. Our proposed method is training-free; given a single image and a list of target attributes, we can ablate the corresponding representations with just one step of gradient descent on the image itself. Our experiments show that not only can we can minimize the propensity of LMMs to generate text related to protected attributes, but we can improve sentiment and even simply use synthetic data to inform the ablation while retaining language modeling capabilities on real data such as COCO or FACET. Furthermore, we find the resulting generations from a debiased LMM exhibit similar accuracy as a baseline biased model, showing that debiasing effects can be achieved without sacrificing model performance.
- Abstract(参考訳): LMM(Large Multi-Modal Models)は、画像などの提供された入力について会話できる汎用チャットボットとして、印象的な機能を示している。
しかし、彼らの反応はトレーニングデータセットに存在する社会的バイアスの影響を受けており、異なる人口層の人々を描いた画像が提示されたとき、モデルがどのように反応するかに好ましくない違いをもたらす。
本研究では, テキスト生成中のバイアス表現を直接除去し, 保護属性に関連する出力を低減したり, 内部的に表現したりするための, LMMのための新しいデバイアス化フレームワークを提案する。
提案手法は,1つの画像と対象属性のリストが与えられた場合,画像自体の勾配降下の1ステップで対応する表現をアブレーションすることができる。
実験の結果,LMMが保護属性に関連するテキストを生成することの妥当性を最小化できるだけでなく,感情の向上や,COCOやFACETなどの実データ上で言語モデリング能力を維持しつつ,単に合成データを用いてアブレーションを通知できることがわかった。
さらに, モデル性能を犠牲にすることなく, 脱バイアス効果が得られることを示すとともに, 脱バイアスモデルと類似の精度を示す。
関連論文リスト
- Model Integrity when Unlearning with T2I Diffusion Models [11.321968363411145]
「忘れ分布からのサンプルを特徴とする特定種類の画像の生成を減らすために、近似機械学習アルゴリズムを提案する。」
次に、既存のベースラインと比較してモデルの整合性を保つ上で優れた効果を示す未学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-04T13:15:28Z) - Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations [7.052925981783274]
本稿では,テキスト生成時のバイアス属性を直接評価することで,LVLMのための新しい脱バイアスフレームワークを提案する。
本手法では, トレーニングを必要とせず, 比較的少数の代表バイアス出力が要求される。
我々の実験は、LVLMが保護属性に関連するテキストを生成することの妥当性を最小化できるだけでなく、合成データを使ってアブレーションを知らせることさえできることを示した。
論文 参考訳(メタデータ) (2024-10-17T19:02:31Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Through a fair looking-glass: mitigating bias in image datasets [1.0323063834827415]
目的変数間の統計的依存を最小化し,画像データセットを非バイアス化するための高速かつ効果的なモデルを提案する。
提案手法をCelebAデータセット上で評価し、その結果を最先端のデバイアス法と比較し、そのモデルが有望なフェアネスと精度の組み合わせを達成することを示す。
論文 参考訳(メタデータ) (2022-09-18T20:28:36Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。