Fugu-MT 論文翻訳(概要): The Bias of Harmful Label Associations in Vision-Language Models

論文の概要: The Bias of Harmful Label Associations in Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.07329v2
Date: Mon, 15 Apr 2024 18:54:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 23:05:59.063491
Title: The Bias of Harmful Label Associations in Vision-Language Models
Title（参考訳）: 視覚・言語モデルにおける有害ラベル協会のバイアス
Authors: Caner Hazirbas, Alicia Sun, Yonathan Efroni, Mark Ibrahim,
Abstract要約: 本研究では, 年齢, 性別, 肌の色調, 体調など, 自己申告されたラベルにまたがる有害なラベル関連頻度のバイアスについて検討した。視覚言語モデルは、より暗い肌の色で個人を有害に分類する傾向にある。
参考スコア（独自算出の注目度）: 21.22031806918789
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable performance of foundation vision-language models, the shared representation space for text and vision can also encode harmful label associations detrimental to fairness. While prior work has uncovered bias in vision-language models' (VLMs) classification performance across geography, work has been limited along the important axis of harmful label associations due to a lack of rich, labeled data. In this work, we investigate harmful label associations in the recently released Casual Conversations datasets containing more than 70,000 videos. We study bias in the frequency of harmful label associations across self-provided labels for age, gender, apparent skin tone, and physical adornments across several leading VLMs. We find that VLMs are $4-7$x more likely to harmfully classify individuals with darker skin tones. We also find scaling transformer encoder model size leads to higher confidence in harmful predictions. Finally, we find improvements on standard vision tasks across VLMs does not address disparities in harmful label associations.
Abstract（参考訳）: 基礎的なビジョン言語モデルの顕著な性能にもかかわらず、テキストとビジョンの共有表現空間は、公正性に有害なラベル関連を符号化することができる。これまで,視覚言語モデル(VLM)の分類性能は地理的に偏りがみられてきたが,リッチなラベル付きデータがないため,有害ラベル関連の重要な軸に沿って作業が制限されてきた。本研究では,最近リリースされた70,000本以上の動画を含むCasual Conversationsデータセットにおける有害なラベル関連について検討する。本研究は, 年齢, 性別, 肌の色調, 身体の装飾など, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢など, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢 VLMは4〜7ドル(約4～7万円)で、肌の色合いが暗い人ほど有害に分類される可能性が高いことがわかりました。また、スケーリングトランスフォーマーエンコーダモデルのサイズが、有害な予測の信頼性を高めることも見出した。最後に,VLM間の標準的な視覚タスクの改善は,有害なラベル関連における相違に対処しないことがわかった。

関連論文リスト

Sanitizing Manufacturing Dataset Labels Using Vision-Language Models [1.0819408603463427]
本稿では,ラベル・サニタイズ・リファインメントのための視覚言語ベースのフレームワークであるVLSRについて紹介する。この方法は、CLIPビジョン言語モデルを利用して、画像とその関連するテキストラベルを共有意味空間に埋め込む。実験の結果、VLSRフレームワークは問題のあるラベルの識別に成功し、ラベルの一貫性を向上させることがわかった。
論文参考訳（メタデータ） (2025-06-30T02:13:09Z)
VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models [23.329280888159744]
本稿では、視覚言語モデル(VLM)のバイアスを評価するために、30M以上の画像を持つ大規模VQAベンチマークであるVIGNETTEを紹介する。我々は、VLMが文脈的設定におけるアイデンティティをどう解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
論文参考訳（メタデータ） (2025-05-28T22:00:30Z)
Evaluating how LLM annotations represent diverse views on contentious topics [3.405231040967506]
本稿では,多言語多言語モデル (LLM) が競合的なラベリングタスクに対する多様な視点を表現していることを示す。以上の結果から, LLM を用いてデータアノテートを行う場合, 特定のグループの視点を低く表現することは, 重大な問題ではないことが示唆された。
論文参考訳（メタデータ） (2025-03-29T22:53:15Z)
Label Distribution Learning with Biased Annotations by Learning Multi-Label Representation [120.97262070068224]
マルチラベル学習(MLL)は,実世界のデータ表現能力に注目されている。ラベル分布学習(LDL)は正確なラベル分布の収集において課題に直面している。
論文参考訳（メタデータ） (2025-02-03T09:04:03Z)
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [21.926934384262594]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。合意、ラベルの品質、効率の点で、専門家、クラウドソース、LLMベースのアノテーションを比較します。以上の結果から,ラベルエラーがかなり多く,修正されると,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文参考訳（メタデータ） (2024-10-24T16:27:03Z)
BiasDora: Exploring Hidden Biased Associations in Vision-Language Models [23.329280888159744]
9つのバイアス次元にまたがる隠された暗黙の関連について検討した。相関関係が負性,毒性,極度にどのように変化するかを示す。私たちの研究は、既存の方法論では認識されない微妙で極端なバイアスを特定します。
論文参考訳（メタデータ） (2024-07-02T08:55:40Z)
SLANT: Spurious Logo ANalysis Toolkit [61.59021920232986]
SLANT: Spurious Logo Analysis Toolkitを開発した。というロゴをマイニングするためのセミオートマチックなメカニズムが組み込まれている。我々は、VLモデルが負の人形容詞と相関する様々な無害なロゴを発見した。攻撃者は有害なコンテンツに急激なロゴを配置することができ、モデルがそれを無害と誤分類する原因となった。
論文参考訳（メタデータ） (2024-06-03T15:41:31Z)
How Robust are LLMs to In-Context Majority Label Bias? [3.3577727874594654]
本研究では,Large Language Models (LLMs) における文脈内学習のロバスト性について検討する。また,モデルサイズの影響と,モデルの堅牢性に寄与する指導プロンプトの豊かさを強調した。
論文参考訳（メタデータ） (2023-12-27T12:20:12Z)
Leveraging Diffusion Perturbations for Measuring Fairness in Computer Vision [25.414154497482162]
拡散モデルを利用してそのようなデータセットを作成できることを実証する。マルチクラスの職業分類タスクにおいて,複数の視覚言語モデルをベンチマークする。非コーカサスラベルで生成された画像は、コーカサスラベルで生成された画像よりも、職業的誤分類率が高いことが判明した。
論文参考訳（メタデータ） (2023-11-25T19:40:13Z)
Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。 GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文参考訳（メタデータ） (2023-05-29T16:29:22Z)
Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。 2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-08T05:53:53Z)
Transductive CLIP with Class-Conditional Contrastive Learning [68.51078382124331]
雑音ラベル付き分類ネットワークをスクラッチから学習するための新しいフレームワークであるTransductive CLIPを提案する。擬似ラベルへの依存を軽減するために,クラス条件のコントラスト学習機構を提案する。アンサンブルラベルは、ノイズラベル付きディープニューラルネットワークのトレーニングを安定化するための擬似ラベル更新戦略として採用されている。
論文参考訳（メタデータ） (2022-06-13T14:04:57Z)
Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。 LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。 LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文参考訳（メタデータ） (2022-06-10T16:01:58Z)
A Study on the Autoregressive and non-Autoregressive Multi-label Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文参考訳（メタデータ） (2020-12-03T05:41:44Z)
Labelling unlabelled videos from scratch with multi-modal self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文参考訳（メタデータ） (2020-06-24T12:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。