論文の概要: Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts
- arxiv url: http://arxiv.org/abs/2406.17974v2
- Date: Wed, 16 Oct 2024 20:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:17:14.768198
- Title: Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts
- Title(参考訳): 異種デモグラフィック属性とプロンプト間の大視領域モデルにおける公正性の評価
- Authors: Xuyang Wu, Yuan Wang, Hsin-Tai Wu, Zhiqiang Tao, Yi Fang,
- Abstract要約: いくつかの主流大規模視覚言語モデル(LVLM)の視覚的公正性について実験的に検討する。
我々の公正度評価フレームワークは、視覚的質問応答/分類タスクにおいて、直接的および単選択的な質問プロンプトを用いている。
我々は,オープンソースのLVLMとクローズドソースの両方に適用可能な,バイアス軽減のためのマルチモーダル・チェーン・オブ・シント(CoT)ベースの戦略を提案する。
- 参考スコア(独自算出の注目度): 27.66626125248612
- License:
- Abstract: Large vision-language models (LVLMs) have recently achieved significant progress, demonstrating strong capabilities in open-world visual understanding. However, it is not yet clear how LVLMs address demographic biases in real life, especially the disparities across attributes such as gender, skin tone, age and race. In this paper, We empirically investigate visual fairness in several mainstream LVLMs by auditing their performance disparities across demographic attributes using public fairness benchmark datasets (e.g., FACET, UTKFace). Our fairness evaluation framework employs direct and single-choice question prompt on visual question-answering/classification tasks. Despite advancements in visual understanding, our zero-shot prompting results show that both open-source and closed-source LVLMs continue to exhibit fairness issues across different prompts and demographic groups. Furthermore, we propose a potential multi-modal Chain-of-thought (CoT) based strategy for bias mitigation, applicable to both open-source and closed-source LVLMs. This approach enhances transparency and offers a scalable solution for addressing fairness, providing a solid foundation for future bias reduction efforts.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は近年大きな進歩を遂げ、オープンワールドの視覚的理解において強力な能力を発揮している。
しかし、LVLMが実際の生活における人口動態の偏り、特に性別、肌の色、年齢、人種などの属性の相違にどう対処するかは、まだ明らかになっていない。
本稿では,複数の主要LVLMにおける視覚的公正度を,公共公正度ベンチマークデータセット(例えば,FACET,UTKFace)を用いて,人口統計属性間での性能格差を監査することによって実証的に検討する。
我々の公正度評価フレームワークは、視覚的質問応答/分類タスクにおいて、直接的および単選択的な質問プロンプトを用いている。
視覚的理解の進歩にもかかわらず、ゼロショットプロンプトの結果は、オープンソースとクローズドソースの両方のLVLMが、異なるプロンプトと人口集団間で公平性の問題を示し続けていることを示している。
さらに,オープンソースのLVLMとクローズドソースの両方に適用可能な,マルチモーダル・チェーン・オブ・思想(CoT)に基づくバイアス緩和戦略を提案する。
このアプローチは透明性を高め、公正性に対処するためのスケーラブルなソリューションを提供する。
関連論文リスト
- FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs [8.37667737406383]
マルチターン対話シナリオである textbfFairMT-Bench における大規模言語モデル(LLM)ベースのチャットボットの公平性ベンチマークを提案する。
多様なバイアスタイプや属性のカバレッジを確保するため,マルチターン対話データセットである texttFairMT-10K を構築した。
textttFairMT-10Kの実験と分析により、マルチターン対話シナリオでは、現在のLLMは偏りのある応答を生成する傾向があり、様々なタスクやモデルのパフォーマンスに顕著なばらつきがあることが明らかになった。
論文 参考訳(メタデータ) (2024-10-25T06:06:31Z) - Fairness in Large Language Models in Three Hours [2.443957114877221]
このチュートリアルは、大規模言語モデルに関する文献の最近の進歩を体系的に概説する。
LLMにおける公平性の概念を考察し、バイアスを評価するための戦略と公正性を促進するために設計されたアルゴリズムを要約する。
論文 参考訳(メタデータ) (2024-08-02T03:44:14Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Unveiling the Tapestry of Consistency in Large Vision-Language Models [25.106467574467448]
提案手法は,プロンプトの解空間が知識点を中心に回転するときに,LVLMがどう機能するかを直感的に解析するベンチマークである。
ConBenchツールに基づいて、タペストリーを最初に公開し、以下の結果を得た。
我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。
論文 参考訳(メタデータ) (2024-05-23T04:08:23Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。