論文の概要: Controlling for Stereotypes in Multimodal Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2302.01582v1
- Date: Fri, 3 Feb 2023 07:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:05:18.533507
- Title: Controlling for Stereotypes in Multimodal Language Model Evaluation
- Title(参考訳): マルチモーダル言語モデル評価におけるステレオタイプ制御
- Authors: Manuj Malik and Richard Johansson
- Abstract要約: ステレオタイプの有無にかかわらず,言語・視覚言語モデルがどのように視覚信号を使用するかを測定するためのベンチマークセットを2つ提案する。
第1のベンチマークは、一般的なオブジェクトのステレオタイプ色をテストするように設計されており、第2のベンチマークは、ジェンダーステレオタイプを考慮に入れている。
- 参考スコア(独自算出の注目度): 0.13706331473063876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a methodology and design two benchmark sets for measuring to what
extent language-and-vision language models use the visual signal in the
presence or absence of stereotypes. The first benchmark is designed to test for
stereotypical colors of common objects, while the second benchmark considers
gender stereotypes. The key idea is to compare predictions when the image
conforms to the stereotype to predictions when it does not.
Our results show that there is significant variation among multimodal models:
the recent Transformer-based FLAVA seems to be more sensitive to the choice of
image and less affected by stereotypes than older CNN-based models such as
VisualBERT and LXMERT. This effect is more discernible in this type of
controlled setting than in traditional evaluations where we do not know whether
the model relied on the stereotype or the visual signal.
- Abstract(参考訳): 本稿では,ステレオタイプの有無に関わらず,言語・ビジョン言語モデルがどのように視覚信号を使用するかを測定するための方法論と2つのベンチマークセットを設計する。
第1のベンチマークは、一般的なオブジェクトのステレオタイプ色をテストするように設計され、第2のベンチマークは、ジェンダーステレオタイプを検討する。
重要なアイデアは、画像がステレオタイプに適合する場合の予測と、そうでない場合の予測を比較することである。
近年のTransformerベースのFLAVAは画像選択に敏感で,VisualBERTやLXMERTといった従来のCNNモデルよりもステレオタイプの影響を受けにくい。
この効果は、モデルがステレオタイプや視覚信号に依存しているかどうかわからない従来の評価よりも、このタイプの制御環境ではより明確である。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and
Prompt Engineering May Not Help You [68.50889475919251]
多言語モデルは単言語モデルと同様の(性的な)バイアスに悩まされていることを示す。
ジェンダーバイアスのない多言語モデルの研究を促進するための新しいベンチマークMAGBIGを提案する。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Noise-Tolerant Unsupervised Adapter for Vision-Language Models [67.72101536572232]
NtUAは耐雑音性のない教師なし適応器で、数発の未ラベルのターゲットサンプルで優れたターゲットモデルを学習することができる。
NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-26T13:35:31Z) - MMBench: Is Your Multi-modal Model an All-around Player? [117.53230227207521]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Bias-to-Text: Debiasing Unknown Visual Biases through Language
Interpretation [72.02386627482056]
本稿では,視覚モデルにおけるバイアスを識別・緩和するB2Tフレームワークを提案する。
視覚バイアスの言語記述は、新しいバイアスの発見と効果的なモデルバイアスの発見を可能にする説明可能な形式を提供する。
様々な画像分類・生成タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in
Multimodal Transformers [15.826109118064716]
事前訓練された視覚と言語 BERT は、両方のモダリティから情報を組み合わせた表現を学習することを目的としている。
本稿では,モーダル間入力アブレーションに基づく診断手法を提案し,それらのモデルが実際にモーダル間情報を統合する程度を評価する。
論文 参考訳(メタデータ) (2021-09-09T17:47:50Z) - Understanding Gender and Racial Disparities in Image Recognition Models [0.0]
クロスエントロピーを用いたマルチラベルソフトマックスの損失を,多ラベル分類問題における二進的クロスエントロピーの代わりに損失関数として検討する。
MR2データセットを用いて、モデル結果の公平性を評価し、モデルのアクティベーションを見て誤りを解釈し、可能な修正を提案する。
論文 参考訳(メタデータ) (2021-07-20T01:05:31Z) - Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language
Models [17.90351661475405]
この研究は、テキストベースのバイアス分析手法を拡張し、マルチモーダル言語モデルを調べる。
VL-BERTが性別バイアスを示し、視覚シーンを忠実に表現するよりもステレオタイプを強化することを好むことが多いことを実証します。
論文 参考訳(メタデータ) (2021-04-18T00:02:32Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。