Fugu-MT 論文翻訳(概要): A Unified Framework and Dataset for Assessing Gender Bias in Vision-Language Models

論文の概要: A Unified Framework and Dataset for Assessing Gender Bias in Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.13636v1
Date: Wed, 21 Feb 2024 09:17:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 16:06:26.313725
Title: A Unified Framework and Dataset for Assessing Gender Bias in Vision-Language Models
Title（参考訳）: 視覚言語モデルにおけるジェンダーバイアス評価のための統一フレームワークとデータセット
Authors: Ashutosh Sathe, Prachi Jain, Sunayana Sitaram
Abstract要約: 我々は、大きな視覚言語モデル(VLM)におけるジェンダー・プロの偏見を評価する統一的な枠組みを構築している。テキストと画像の合成、高品質なデータセットを構築し、プロの行動にまたがる性別の区別を曖昧にし、性別バイアスをベンチマークする。
参考スコア（独自算出の注目度）: 10.144272784552273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large vision-language models (VLMs) are widely getting adopted in industry and academia. In this work we build a unified framework to systematically evaluate gender-profession bias in VLMs. Our evaluation encompasses all supported inference modes of the recent VLMs, including image-to-text, text-to-text, text-to-image, and image-to-image. We construct a synthetic, high-quality dataset of text and images that blurs gender distinctions across professional actions to benchmark gender bias. In our benchmarking of recent vision-language models (VLMs), we observe that different input-output modalities result in distinct bias magnitudes and directions. We hope our work will help guide future progress in improving VLMs to learn socially unbiased representations. We will release our data and code.
Abstract（参考訳）: 大規模視覚言語モデル(VLM)は、産業やアカデミックで広く採用されている。本研究では,VLMにおけるジェンダー・プロフェッションバイアスを体系的に評価する統一的な枠組みを構築する。画像からテキストへの推論,テキストから画像への推論,画像から画像への推論など,最新のvlmでサポートされているすべての推論モードを包含する。テキストと画像の合成、高品質なデータセットを構築し、プロの行動間で性別の区別を曖昧にし、性別バイアスをベンチマークする。近年の視覚言語モデル (VLM) のベンチマークでは、異なる入力出力モードが異なるバイアスの大きさと方向をもたらすことが観察された。私たちの仕事は、VLMの改善における今後の進歩を、社会的に偏見のない表現を学ぶのに役立つことを願っています。データとコードをリリースします。

関連論文リスト

Generalizing vision-language models to novel domains: A comprehensive survey [55.97518817219619]
視覚言語事前学習は、視覚とテキストの両モードの強みを統合する変換技術として登場した。本調査は, VLM文献における一般化設定, 方法論, ベンチマーク, 結果の総合的な要約を目的とする。
論文参考訳（メタデータ） (2025-06-23T10:56:37Z)
Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models [23.329280888159744]
本稿では、視覚言語モデル(VLM)のバイアスを評価するために、30M以上の画像を持つ大規模VQAベンチマークであるVIGNETTEを紹介する。我々は、VLMが文脈的設定におけるアイデンティティをどう解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
論文参考訳（メタデータ） (2025-05-28T22:00:30Z)
Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文参考訳（メタデータ） (2025-05-20T13:47:40Z)
A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges [6.530386181196826]
VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の共通点において、トランスフォーメーショントピックとして登場した。研究の急速な進歩と様々なアプリケーションでの人気が高まる中、我々はVLMの総合的な調査を行っている。
論文参考訳（メタデータ） (2025-01-04T04:59:33Z)
VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges [2.2751168722976587]
VLBiasは、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を活用して、ニュースコンテンツの言語的および視覚的バイアスを検出するフレームワークである。本稿では,多様なニュースソースからのテキストコンテンツと対応する画像からなるマルチモーダルデータセットを提案する。
論文参考訳（メタデータ） (2024-12-22T15:05:30Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models [3.018378575149671]
視覚言語モデル (VLM) は, 期待される性別の個人を行動のパフォーマーとして識別する傾向を示す。画像やテキスト中の実際のパフォーマーの性別に関連づける際のこのバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼ぶ。以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。
論文参考訳（メタデータ） (2024-07-30T17:46:06Z)
GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。既存のLVLMでは男女差が広くみられた。
論文参考訳（メタデータ） (2024-06-30T05:55:15Z)
Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文参考訳（メタデータ） (2024-06-13T17:57:30Z)
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals [8.41410889524315]
大規模視覚言語モデル(LVLM)によるテキストに含まれる社会的バイアスについて検討する。異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提案する。我々は,この逆ファクト・ジェネレーション・セッティングに基づいて,様々なモデルが生成したテキストを大規模に評価し,一般的なLVLMから5700万以上の応答を生成する。
論文参考訳（メタデータ） (2024-05-30T15:27:56Z)
Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。 VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文参考訳（メタデータ） (2024-03-20T17:54:58Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文参考訳（メタデータ） (2023-04-03T02:17:05Z)
DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文参考訳（メタデータ） (2023-03-18T14:57:43Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。