論文の概要: A Picture is Worth 500 Labels: A Case Study of Demographic Disparities in Local Machine Learning Models for Instagram and TikTok
- arxiv url: http://arxiv.org/abs/2403.19717v1
- Date: Wed, 27 Mar 2024 17:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:43:20.191796
- Title: A Picture is Worth 500 Labels: A Case Study of Demographic Disparities in Local Machine Learning Models for Instagram and TikTok
- Title(参考訳): 画像は価値500ラベル:InstagramとTikTokのローカル機械学習モデルにおけるデモグラフィックの違いのケーススタディ
- Authors: Jack West, Lea Thiemt, Shimaa Ahmed, Maggie Bartig, Kassem Fawaz, Suman Banerjee,
- Abstract要約: 人気の高いソーシャルメディアアプリTikTokとInstagramを分析して、画像とビデオデータからユーザーを推測する、両方のアプリの視覚モデルを明らかにする。
モバイルアプリにおける機械学習タスクのキャプチャと評価のための新しい手法を開発した。
- 参考スコア(独自算出の注目度): 9.917627395559467
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mobile apps have embraced user privacy by moving their data processing to the user's smartphone. Advanced machine learning (ML) models, such as vision models, can now locally analyze user images to extract insights that drive several functionalities. Capitalizing on this new processing model of locally analyzing user images, we analyze two popular social media apps, TikTok and Instagram, to reveal (1) what insights vision models in both apps infer about users from their image and video data and (2) whether these models exhibit performance disparities with respect to demographics. As vision models provide signals for sensitive technologies like age verification and facial recognition, understanding potential biases in these models is crucial for ensuring that users receive equitable and accurate services. We develop a novel method for capturing and evaluating ML tasks in mobile apps, overcoming challenges like code obfuscation, native code execution, and scalability. Our method comprises ML task detection, ML pipeline reconstruction, and ML performance assessment, specifically focusing on demographic disparities. We apply our methodology to TikTok and Instagram, revealing significant insights. For TikTok, we find issues in age and gender prediction accuracy, particularly for minors and Black individuals. In Instagram, our analysis uncovers demographic disparities in the extraction of over 500 visual concepts from images, with evidence of spurious correlations between demographic features and certain concepts.
- Abstract(参考訳): モバイルアプリは、ユーザのスマートフォンにデータ処理を移すことで、ユーザのプライバシを受け入れている。
ビジョンモデルのような高度な機械学習(ML)モデルでは、ユーザイメージをローカルに分析して、いくつかの機能を駆動する洞察を抽出できるようになった。
ユーザイメージをローカルに分析するこの新たな処理モデルに基づいて、TikTokとInstagramという2つの人気のあるソーシャルメディアアプリを分析し、(1)画像とビデオデータからユーザを推測する、(2)人口統計に関するパフォーマンス格差を示すかを明らかにする。
視覚モデルが年齢検証や顔認識などのセンシティブな技術にシグナルを提供するため、これらのモデルにおける潜在的なバイアスを理解することは、ユーザーが公平で正確なサービスを受けることを保証するために不可欠である。
我々は、コードの難読化、ネイティブコード実行、スケーラビリティといった課題を克服し、モバイルアプリでMLタスクをキャプチャして評価する新しい方法を開発した。
本手法は,MLタスク検出,MLパイプライン再構築,MLパフォーマンス評価から成り,特に人口格差に着目した。
当社の方法論をTikTokとInstagramに適用し、重要な洞察を明らかにします。
TikTokでは、特に未成年者や黒人の年齢や性別の予測精度に問題がある。
Instagramでは、画像から500以上の視覚的概念を抽出し、人口動態の特徴と特定の概念の間に急激な相関関係があることを示す。
関連論文リスト
- Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - FACET: Fairness in Computer Vision Evaluation Benchmark [21.862644380063756]
コンピュータビジョンモデルは、性別や肌のトーンなどの属性間でパフォーマンスの相違が知られている。
FACET (FAirness in Computer Vision EvaluaTion) という新しいベンチマークを提案する。
FACETは、最も一般的な視覚タスクのための32kイメージの大規模な、一般公開された評価セットである。
論文 参考訳(メタデータ) (2023-08-31T17:59:48Z) - MiVOLO: Multi-input Transformer for Age and Gender Estimation [0.0]
最新の視覚変換器を用いた年齢・性別推定手法であるMiVOLOを提案する。
本手法は両タスクを統合された二重入力/出力モデルに統合する。
モデルの年齢認識性能を人間レベルの精度と比較し、ほとんどの年齢範囲で人間よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T14:58:10Z) - Evaluating how interactive visualizations can assist in finding samples where and how computer vision models make mistakes [1.76602679361245]
コンピュータビジョン(CV)モデルを作成するシステムであるSpriteのコンテキストにおいて、2つのインタラクティブな可視化を提示する。
これらの視覚化は、Spriteのユーザがモデルに苦労している画像を特定し(評価)、(計画的な)画像を選択するのにどのように役立つかを調べる。
論文 参考訳(メタデータ) (2023-05-19T14:43:00Z) - Robustar: Interactive Toolbox Supporting Precise Data Annotation for
Robust Vision Learning [53.900911121695536]
ソフトウェアRobustarの初期リリースを紹介します。
それは、データ駆動の観点から視覚分類機械学習モデルの堅牢性を改善することを目的としている。
論文 参考訳(メタデータ) (2022-07-18T21:12:28Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。