Fugu-MT 論文翻訳(概要): A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning

論文の概要: A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning

arxiv url: http://arxiv.org/abs/2203.11933v4
Date: Wed, 26 Oct 2022 03:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-19 15:48:44.085773
Title: A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning
Title（参考訳）: プロンプトアレイはバイアスを遠ざける: 逆学習による視覚言語モデルの偏り
Authors: Hugo Berg, Siobhan Mackenzie Hall, Yash Bhalgat, Wonsuk Yang, Hannah Rose Kirk, Aleksandar Shtedritski, Max Bain
Abstract要約: 視覚言語モデルは社会的バイアスやステレオタイプを符号化することができる。これらのマルチモーダル害の測定と緩和には課題がある。バイアス尺度を調査し,画像テキスト表現にランキング指標を適用した。
参考スコア（独自算出の注目度）: 55.96577490779591
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models can encode societal biases and stereotypes, but there are challenges to measuring and mitigating these multimodal harms due to lacking measurement robustness and feature degradation. To address these challenges, we investigate bias measures and apply ranking metrics for image-text representations. We then investigate debiasing methods and show that prepending learned embeddings to text queries that are jointly trained with adversarial debiasing and a contrastive loss reduces various bias measures with minimal degradation to the image-text representation.
Abstract（参考訳）: 視覚言語モデルは社会バイアスやステレオタイプをエンコードできるが、測定の堅牢性と特徴劣化の欠如により、これらのマルチモーダル害の測定と緩和には課題がある。これらの課題に対処するために,バイアス尺度を調査し,画像テキスト表現にランク付け指標を適用する。次に, 先行学習によるテキストクエリへの埋め込みが, 相反的デバイアスとコントラスト損失を併用することで, 画像テキスト表現の劣化を最小限に抑えることができることを示す。

関連論文リスト

Misspellings in Natural Language Processing: A survey [52.419589623702336]
デジタル通信ではミススペルがユビキタスになりました我々は科学的な問題としてミススペルの歴史を再構築する。 NLPにおけるミススペル問題に対処するための最新の進歩について論じる。
論文参考訳（メタデータ） (2025-01-28T10:26:04Z)
Biased or Flawed? Mitigating Stereotypes in Generative Language Models by Addressing Task-Specific Flaws [12.559028963968247]
生成言語モデルは、しばしば出力の社会的バイアスを反映し増幅します。生成モデルにおいて観測されたステレオタイプを暗黙的に緩和する目的のステレオタイプ緩和フレームワークを提案する。複数の次元にわたるステレオタイプ出力を60%以上削減する。
論文参考訳（メタデータ） (2024-12-16T03:29:08Z)
Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文参考訳（メタデータ） (2024-05-31T12:20:02Z)
Exposing Text-Image Inconsistency Using Diffusion Models [36.820267498751626]
増大する問題は、画像が意図や意味の異なるテキストと誤解を招くような、テキストイメージの不整合である。本研究では,テキスト間の拡散モデルを用いてテキストと画像のペア間の意味的不整合をローカライズするD-TIILを提案する。 D-TIILは、テキストイメージの不整合を識別し、ローカライズするためのスケーラブルでエビデンスベースのアプローチを提供する。
論文参考訳（メタデータ） (2024-04-28T00:29:24Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文参考訳（メタデータ） (2023-12-05T20:07:34Z)
PRIME: Prioritizing Interpretability in Failure Mode Extraction [49.93565079216376]
訓練された画像分類モデルにおいて、故障モードに対する人間の理解可能な記述を提供することの課題について検討する。本稿では,この問題における解釈可能性を重視した新しい手法を提案する。本手法は,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。
論文参考訳（メタデータ） (2023-09-29T22:00:12Z)
Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文参考訳（メタデータ） (2023-01-31T20:09:33Z)
Textual Enhanced Contrastive Learning for Solving Math Word Problems [23.196339273292246]
本稿では,意味的に類似した例を識別するためにモデルを強制するテキスト拡張コントラスト学習フレームワークを提案する。テキストの微妙なばらつきのある例を豊かにするために、自己監督的な方法戦略を採用する。実験結果から,提案手法は広く使用されているベンチマークデータセットと,英語と中国語の課題データセットの両面において,最先端性を実現していることが明らかとなった。
論文参考訳（メタデータ） (2022-11-29T08:44:09Z)
Measuring Representational Harms in Image Captioning [5.543867614999908]
本稿では,5種類の表現的害を測定するための一連の手法と,その結果を述べる。我々の目標は、この画像キャプションシステムを評価することではなく、基準的基礎計測技術を開発することであった。測定手法の根底にある仮定を議論し、それが持たないことを指摘する。
論文参考訳（メタデータ） (2022-06-14T21:08:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。