論文の概要: Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: a case study on Baidu, Ernie and Qwen
- arxiv url: http://arxiv.org/abs/2408.15696v1
- Date: Wed, 28 Aug 2024 10:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:10:57.790648
- Title: Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: a case study on Baidu, Ernie and Qwen
- Title(参考訳): 中国語AI技術の多様性、否定性、ステレオタイプの比較:Baidu、Ernie、Qwenを事例として
- Authors: Geng Liu, Carlo Alberto Bono, Francesco Pierri,
- Abstract要約: 我々は、中国の主要検索エンジンBaiduに埋め込まれた社会的偏見を調査し、中国ベースのツールを調査した。
上記のツールにエンコードされた30万以上のビューを,そのようなグループを記述した候補語に誘導することで収集する。
言語モデルは検索エンジンに比べて多種多様な組込みビューを示すが、BaiduとQwenはErnieよりもネガティブなコンテンツを生成することが多い。
- 参考スコア(独自算出の注目度): 1.3354439722832292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and search engines have the potential to perpetuate biases and stereotypes by amplifying existing prejudices in their training data and algorithmic processes, thereby influencing public perception and decision-making. While most work has focused on Western-centric AI technologies, we study Chinese-based tools by investigating social biases embedded in the major Chinese search engine, Baidu, and two leading LLMs, Ernie and Qwen. Leveraging a dataset of 240 social groups across 13 categories describing Chinese society, we collect over 30k views encoded in the aforementioned tools by prompting them for candidate words describing such groups. We find that language models exhibit a larger variety of embedded views compared to the search engine, although Baidu and Qwen generate negative content more often than Ernie. We also find a moderate prevalence of stereotypes embedded in the language models, many of which potentially promote offensive and derogatory views. Our work highlights the importance of promoting fairness and inclusivity in AI technologies with a global perspective.
- Abstract(参考訳): 大規模言語モデル(LLM)と検索エンジンは、既存の偏見をトレーニングデータやアルゴリズムのプロセスに増幅することにより、バイアスやステレオタイプを永続させる可能性を秘めている。
ほとんどの研究は西洋中心のAI技術に重点を置いているが、中国の主要検索エンジンBaiduと、主要なLLMであるErnieとQwenに埋め込まれた社会的偏見を調査することで、中国ベースのツールを研究している。
中国社会を記述した13のカテゴリーにまたがる240の社会集団のデータセットを利用して、上記のツールにエンコードされた30万のビューを収集し、それらのグループを記述した候補語に促す。
言語モデルは検索エンジンに比べて多種多様な組込みビューを示すが、BaiduとQwenはErnieよりもネガティブなコンテンツを生成することが多い。
また、言語モデルに埋め込まれたステレオタイプが適度に普及しており、その多くが攻撃的・軽蔑的な見方を促進する可能性がある。
我々の研究は、グローバルな視点でAI技術における公正さと傾きを促進することの重要性を強調します。
関連論文リスト
- Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Linguistic Landscape of Generative AI Perception: A Global Twitter Analysis Across 14 Languages [6.278517495094834]
私たちは14の言語で680万以上のツイートを分析しました。
本研究は,言語固有のニュアンスを伴って,生成AIの認識のグローバルな傾向を明らかにした。
論文 参考訳(メタデータ) (2024-05-30T13:19:16Z) - A comparison of online search engine autocompletion in Google and Baidu [3.5016560416031886]
本稿では,BaiduとGoogleの2つの言語的・文化的文脈における検索オートコンプリートの特徴について検討する。
2つの検索エンジンの違いは、元のクエリの抑制や修正の仕方にある。
我々の研究は、現在の言語技術においてより洗練され、文化的に敏感なモデレーション戦略の必要性を強調した。
論文 参考訳(メタデータ) (2024-05-03T08:17:04Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Diversity and Language Technology: How Techno-Linguistic Bias Can Cause
Epistemic Injustice [4.234367850767171]
多くの試みが、特定の言語に対するハードワイヤの表現的嗜好に固執する欠陥のある解を生み出していることを示す。
論文で示すように、技術的言語バイアスは、支配的な権力の言語と文化の一部である概念を表現できるシステムをもたらす可能性がある。
この問題の根底には、多様性の単純化された理解を適用する技術開発コミュニティの体系的な傾向がある、と我々は主張する。
論文 参考訳(メタデータ) (2023-07-25T16:08:27Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。