論文の概要: Bias Attribution in Filipino Language Models: Extending a Bias Interpretability Metric for Application on Agglutinative Languages
- arxiv url: http://arxiv.org/abs/2506.07249v1
- Date: Sun, 08 Jun 2025 18:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.733179
- Title: Bias Attribution in Filipino Language Models: Extending a Bias Interpretability Metric for Application on Agglutinative Languages
- Title(参考訳): フィリピンの言語モデルにおけるバイアス属性:凝集型言語への応用のためのバイアス解釈可能性尺度の拡張
- Authors: Lance Calvin Lim Gamboa, Yue Feng, Mark Lee,
- Abstract要約: 言語モデルの実装に情報理論バイアス属性スコアを適応させる。
フィリピンのモデルは、人、物、関係に関連する言葉によって偏見を向けられていることを示す。
これらの知見は、英語と非英語のモデルが、社会デマログラフ群と偏見に関連する入力をどのように処理するかの相違を示唆している。
- 参考スコア(独自算出の注目度): 8.58480189544444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging research on bias attribution and interpretability have revealed how tokens contribute to biased behavior in language models processing English texts. We build on this line of inquiry by adapting the information-theoretic bias attribution score metric for implementation on models handling agglutinative languages, particularly Filipino. We then demonstrate the effectiveness of our adapted method by using it on a purely Filipino model and on three multilingual models: one trained on languages worldwide and two on Southeast Asian data. Our results show that Filipino models are driven towards bias by words pertaining to people, objects, and relationships, entity-based themes that stand in contrast to the action-heavy nature of bias-contributing themes in English (i.e., criminal, sexual, and prosocial behaviors). These findings point to differences in how English and non-English models process inputs linked to sociodemographic groups and bias.
- Abstract(参考訳): バイアス属性と解釈可能性に関する最近の研究は、トークンが英語テキストを処理する言語モデルにおけるバイアスされた振る舞いにどのように貢献するかを明らかにしている。
本稿では,情報理論的偏見属性スコアをアグルテンティック言語,特にフィリピン語を扱うモデルの実装に適用することにより,この調査の行を構築した。
次に、純粋にフィリピンのモデルと3つの多言語モデルを用いて、適応された手法の有効性を実証した。
フィリピンのモデルでは, 人, 対象, 関係に関連する言葉による偏見が, 英語における偏見に富むテーマ(犯罪, 性的, 社会的行動)の行動重大性とは対照的に, 実体に基づくテーマであることがわかった。
これらの知見は、英語と非英語のモデルが、社会デマログラフ群と偏見に関連する入力をどのように処理するかの相違を示唆している。
関連論文リスト
- Filipino Benchmarks for Measuring Sexist and Homophobic Bias in Multilingual Language Models from Southeast Asia [0.3376269351435396]
フィリピンのテキストを扱う事前訓練された言語モデルにおいて、性差別とアンチクイアバイアスの両方を評価するベンチマークを導入する。
ベンチマークは、英国偏見評価データセットの文化的適応による7,074の新たな課題ペアで構成されています。
多言語モデルの場合、特定の言語で学習したバイアスの程度は、モデルが暴露した言語における事前学習データ量に影響されることがわかった。
論文 参考訳(メタデータ) (2024-12-10T08:31:52Z) - A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia [0.3376269351435396]
事前学習言語モデル(PLM)におけるバイアス行動に対するトークンレベルの寄与を測定するための新しい指標を提案する。
東南アジアのPLMにおいて性差別と同性愛バイアスの存在が確認された。
解釈可能性と意味分析は、PLMバイアスが犯罪、親密な関係、助けに関する言葉によって強く引き起こされることを示している。
論文 参考訳(メタデータ) (2024-10-20T18:31:05Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。