論文の概要: Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts
- arxiv url: http://arxiv.org/abs/2406.17974v1
- Date: Tue, 25 Jun 2024 23:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 15:07:42.349250
- Title: Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts
- Title(参考訳): 異種デモグラフィック属性とプロンプト間の大視領域モデルにおける公正性の評価
- Authors: Xuyang Wu, Yuan Wang, Hsin-Tai Wu, Zhiqiang Tao, Yi Fang,
- Abstract要約: いくつかの主流視覚言語モデル(LVLM)における両眼的公正性について実験的に検討する。
パブリックフェアネスベンチマークデータセット(例えば、FACET)に基づいて、センシティブな属性間でのパフォーマンス格差を監査する。
視覚的理解の強化にもかかわらず、オープンソースのLVLMとクローズドソースのLVLMは、異なるインストラクションプロンプトと人口統計特性にまたがるフェアネスの問題を示す。
- 参考スコア(独自算出の注目度): 27.66626125248612
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models (LVLMs) have recently achieved significant progress, demonstrating strong capabilities in open-world visual understanding. However, it is not yet clear how LVLMs address demographic biases in real life, especially the disparities across attributes such as gender, skin tone, and age. In this paper, we empirically investigate \emph{visual fairness} in several mainstream LVLMs and audit their performance disparities across sensitive demographic attributes, based on public fairness benchmark datasets (e.g., FACET). To disclose the visual bias in LVLMs, we design a fairness evaluation framework with direct questions and single-choice question-instructed prompts on visual question-answering/classification tasks. The zero-shot prompting results indicate that, despite enhancements in visual understanding, both open-source and closed-source LVLMs exhibit prevalent fairness issues across different instruct prompts and demographic attributes.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は近年大きな進歩を遂げ、オープンワールドの視覚的理解において強力な能力を発揮している。
しかし、LVLMが実際の生活における人口動態の偏り、特に性別、肌の色調、年齢などの属性の相違にどう対処するかは明らかになっていない。
本稿では,いくつかの主要LVLMにおける「emph{visual fairness}」を実証的に検討し,その性能格差を,公共公正性ベンチマークデータセット(例えばFACET)に基づいて評価する。
LVLMの視覚的バイアスを明らかにするために,視覚的質問回答/分類タスクにおいて,直接質問と単選択質問指示によるプロンプトを用いた公平性評価フレームワークを設計する。
ゼロショットプロンプトの結果は、視覚的理解の強化にもかかわらず、オープンソースとクローズドソースの両方のLVLMは、異なるインストラクションプロンプトと人口統計特性にまたがるフェアネスの問題を示すことを示している。
関連論文リスト
- FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs [8.37667737406383]
マルチターン対話シナリオである textbfFairMT-Bench における大規模言語モデル(LLM)ベースのチャットボットの公平性ベンチマークを提案する。
多様なバイアスタイプや属性のカバレッジを確保するため,マルチターン対話データセットである texttFairMT-10K を構築した。
textttFairMT-10Kの実験と分析により、マルチターン対話シナリオでは、現在のLLMは偏りのある応答を生成する傾向があり、様々なタスクやモデルのパフォーマンスに顕著なばらつきがあることが明らかになった。
論文 参考訳(メタデータ) (2024-10-25T06:06:31Z) - Fairness in Large Language Models in Three Hours [2.443957114877221]
このチュートリアルは、大規模言語モデルに関する文献の最近の進歩を体系的に概説する。
LLMにおける公平性の概念を考察し、バイアスを評価するための戦略と公正性を促進するために設計されたアルゴリズムを要約する。
論文 参考訳(メタデータ) (2024-08-02T03:44:14Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Unveiling the Tapestry of Consistency in Large Vision-Language Models [25.106467574467448]
提案手法は,プロンプトの解空間が知識点を中心に回転するときに,LVLMがどう機能するかを直感的に解析するベンチマークである。
ConBenchツールに基づいて、タペストリーを最初に公開し、以下の結果を得た。
我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。
論文 参考訳(メタデータ) (2024-05-23T04:08:23Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。