論文の概要: Interpretable Debiasing of Vision-Language Models for Social Fairness
- arxiv url: http://arxiv.org/abs/2602.24014v1
- Date: Fri, 27 Feb 2026 13:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.450787
- Title: Interpretable Debiasing of Vision-Language Models for Social Fairness
- Title(参考訳): 社会フェアネスのための視覚言語モデルの解釈的デバイアス
- Authors: Na Min An, Yoonna Jang, Yusuke Hirota, Ryo Hachiuma, Isabelle Augenstein, Hyunjung Shim,
- Abstract要約: 本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。
社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
- 参考スコア(独自算出の注目度): 55.85977929985967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Vision-Language models (VLMs) has raised growing concerns that their black-box reasoning processes could lead to unintended forms of social bias. Current debiasing approaches focus on mitigating surface-level bias signals through post-hoc learning or test-time algorithms, while leaving the internal dynamics of the model largely unexplored. In this work, we introduce an interpretable, model-agnostic bias mitigation framework, DeBiasLens, that localizes social attribute neurons in VLMs through sparse autoencoders (SAEs) applied to multimodal encoders. Building upon the disentanglement ability of SAEs, we train them on facial image or caption datasets without corresponding social attribute labels to uncover neurons highly responsive to specific demographics, including those that are underrepresented. By selectively deactivating the social neurons most strongly tied to bias for each group, we effectively mitigate socially biased behaviors of VLMs without degrading their semantic knowledge. Our research lays the groundwork for future auditing tools, prioritizing social fairness in emerging real-world AI systems.
- Abstract(参考訳): VLM(Vision-Language Model)の急速な進歩は、彼らのブラックボックス推論プロセスが意図しない社会的偏見につながるのではないかという懸念を高めている。
現在のデバイアス手法は、ポストホック学習やテストタイムアルゴリズムによる表面レベルのバイアス信号の緩和に重点を置いている。
本稿では,マルチモーダルエンコーダに適用したスパースオートエンコーダ(SAE)を用いて,VLM内の社会的属性ニューロンを局在させる,解釈可能なモデル非依存バイアス緩和フレームワークであるDeBiasLensを紹介する。
SAEのゆがみ能力に基づいて、対応する社会的属性ラベルを使わずに顔画像やキャプションデータセットでそれらを訓練し、表現されていないものを含む特定の人口層に高い応答性を持つニューロンを明らかにする。
各集団のバイアスに最も強く結びついている社会ニューロンを選択的に非活性化することにより、VLMの社会的偏見の挙動を、その意味的知識を損なうことなく効果的に緩和する。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
関連論文リスト
- SocialFusion: Addressing Social Degradation in Pre-trained Vision-Language Models [34.928133808112925]
事前学習された視覚言語モデル(VLM)は,複数の社会的知覚タスクを同時に統合し,学習することの難しさを示す。
凍結したビジュアルエンコーダと言語モデルとの間の最小限の接続を学習する統合フレームワークであるSocialFusionを提案する。
以上の結果から,現在のVLM事前学習戦略は一般社会能力獲得に有害である可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-30T23:54:54Z) - Addressing Bias in LLMs: Strategies and Application to Fair AI-based Recruitment [49.81946749379338]
この研究は、トランスフォーマーベースのシステムの能力を分析して、データに存在する人口統計バイアスを学習する。
最終ツールにおける偏りを緩和する手段として,学習パイプラインからの性別情報を削減するためのプライバシー向上フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T15:29:43Z) - Interpreting Social Bias in LVLMs via Information Flow Analysis and Multi-Round Dialogue Evaluation [1.7997395646080083]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な進歩を遂げているが、社会的偏見も顕著である。
本稿では,情報フロー解析と多ラウンド対話評価を組み合わせた説明フレームワークを提案する。
実験により、LVLMは異なる人口集団の画像を処理する際に、情報利用の体系的な差異を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T12:28:44Z) - Social Debiasing for Fair Multi-modal LLMs [59.61512883471714]
MLLM(Multi-modal Large Language Models)は、研究分野を劇的に進歩させ、強力な視覚言語理解機能を提供する。
これらのモデルは、しばしば訓練データから根深い社会的偏見を継承し、人種や性別などの属性に対する不快な反応をもたらす。
本稿では,MLLMにおける社会的バイアスの問題を,複数の社会的概念を持つ包括的対実的データセットを導入することで解決する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Social Processes: Self-Supervised Forecasting of Nonverbal Cues in
Social Conversations [22.302509912465077]
我々は、社会的人間関係の分野におけるボトムアップな自己監督的アプローチの方向への第一歩を踏み出す。
ソーシャルキュー予測のタスクを定式化し、ラベルなしの低レベル行動キューを多量に活用する。
本稿では,ニューラル・プロセス(NP)ファミリー内における社会的に認識されるシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-28T18:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。