論文の概要: Digital Skin, Digital Bias: Uncovering Tone-Based Biases in LLMs and Emoji Embeddings
- arxiv url: http://arxiv.org/abs/2604.06863v1
- Date: Wed, 08 Apr 2026 09:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.450099
- Title: Digital Skin, Digital Bias: Uncovering Tone-Based Biases in LLMs and Emoji Embeddings
- Title(参考訳): デジタル皮膚とデジタルバイアス:LLMと絵文字の埋め込みでトーンベースのバイアスを発見
- Authors: Mingchen Li, Wajdi Aljedaani, Yingjie Liu, Navyasri Meka, Xuan Lu, Xinyue Ye, Junhua Ding, Yunhe Feng,
- Abstract要約: 本稿では,スキントーン絵文字表現におけるバイアスの大規模比較研究について述べる。
現代大言語モデル(LLM)に対する絵文字埋め込みモデル(絵文字2vec, 絵文字sw2v)の評価を行った。
異なる肌色にまたがる絵文字に係わる、歪んだ感情と一貫性のない意味の証拠を見いだす。
- 参考スコア(独自算出の注目度): 20.24843860502652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skin-toned emojis are crucial for fostering personal identity and social inclusion in online communication. As AI models, particularly Large Language Models (LLMs), increasingly mediate interactions on web platforms, the risk that these systems perpetuate societal biases through their representation of such symbols is a significant concern. This paper presents the first large-scale comparative study of bias in skin-toned emoji representations across two distinct model classes. We systematically evaluate dedicated emoji embedding models (emoji2vec, emoji-sw2v) against four modern LLMs (Llama, Gemma, Qwen, and Mistral). Our analysis first reveals a critical performance gap: while LLMs demonstrate robust support for skin tone modifiers, widely-used specialized emoji models exhibit severe deficiencies. More importantly, a multi-faceted investigation into semantic consistency, representational similarity, sentiment polarity, and core biases uncovers systemic disparities. We find evidence of skewed sentiment and inconsistent meanings associated with emojis across different skin tones, highlighting latent biases within these foundational models. Our findings underscore the urgent need for developers and platforms to audit and mitigate these representational harms, ensuring that AI's role on the web promotes genuine equity rather than reinforcing societal biases.
- Abstract(参考訳): 皮膚のトーン絵文字は、オンラインコミュニケーションにおける個人のアイデンティティと社会的包摂性を促進するために不可欠である。
AIモデル、特にLarge Language Models(LLM)は、Webプラットフォーム上でのインタラクションの仲介をますます進めているため、これらのシステムがそのようなシンボルの表現を通じて社会的バイアスを持続させるリスクは重要な懸念事項である。
本稿では,2つの異なるモデルクラスにまたがるスキントーン絵文字表現におけるバイアスの大規模比較を行った。
本研究は,現代LLM(Llama, Gemma, Qwen, Mistral)に対して,絵文字埋め込みモデル(emoji2vec, emoji-sw2v)を体系的に評価した。
LLMはスキントーン修飾器の頑健なサポートを示す一方、広く使われている特殊絵文字モデルは深刻な欠陥を示す。
さらに重要なことは、セマンティック一貫性、表現的類似性、感情極性、およびコアバイアスに関する多面的な調査が、体系的な格差を明らかにすることである。
肌の色調の異なる絵文字にまつわる歪んだ感情や無矛盾な意味の証拠が発見され,これらの基礎モデルに潜伏するバイアスが浮かび上がっている。
私たちの調査結果は、これらの表現的害を監査し緩和する開発者やプラットフォームに対する緊急の必要性を強調し、WebにおけるAIの役割が、社会的バイアスを補強するのではなく、真のエクイティを促進することを保証しています。
関連論文リスト
- When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs' Toxicity [83.94875431097908]
絵文字は、デジタル通信において、非言語的な手がかりとして世界中で使用されている。
絵文字は大きな言語モデルにおいて有害なコンテンツ生成を引き起こす可能性があることが観察された。
論文 参考訳(メタデータ) (2025-09-14T07:21:44Z) - INFELM: In-depth Fairness Evaluation of Large Text-To-Image Models [8.340794604348632]
マルチモーダルAIシステムは、人間のような認知をエミュレートすることで、産業応用の可能性を秘めている。
また、有害な内容の増幅や社会的偏見の強化など、重大な倫理的課題も生じている。
本稿では,広く使用されているテキスト・ツー・イメージ・モデルにおける奥行きの公平性評価であるINFELMを提案する。
論文 参考訳(メタデータ) (2024-12-28T02:28:19Z) - Semantics Preserving Emoji Recommendation with Large Language Models [47.94761630160614]
既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。
本稿では,ユーザのテキストとのセマンティックな整合性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のための新しいセマンティックス保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T22:27:46Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals [8.41410889524315]
LVLM(Large Vision-Language Models)条件は、入力画像とテキストプロンプトの両方にテキストを生成する。
入力画像に対して,異なるLVLMが生成するテキストの反実的変化を大規模に研究する。
我々の多次元バイアス評価フレームワークは、画像に描かれた人種、性別、身体的特徴などの社会的属性が有害なコンテンツの生成に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-05-30T15:27:56Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - EmojiLM: Modeling the New Emoji Language [44.23076273155259]
我々は,大規模言語モデルからテキスト絵文字並列コーパスであるText2Emojiを開発した。
並列コーパスに基づいて,テキスト・絵文字双方向翻訳に特化したシーケンス・ツー・シーケンス・モデルである絵文字LMを蒸留する。
提案モデルでは,強いベースラインを上回り,平行コーパスは絵文字関連下流タスクに有効である。
論文 参考訳(メタデータ) (2023-11-03T07:06:51Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。