論文の概要: Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese
- arxiv url: http://arxiv.org/abs/2505.22645v1
- Date: Wed, 28 May 2025 17:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.786156
- Title: Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese
- Title(参考訳): バイアスを特徴づける - 単純化された中国語と伝統的な中国語の大規模言語モデルのベンチマーク
- Authors: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke,
- Abstract要約: 本研究では,大言語モデルが中国語の2つの変種に刺激された場合の差分性能について検討する。
実世界のシナリオを反映した2つのベンチマークタスクを設計する。
分析の結果、LLM応答のバイアスはタスクとプロンプト言語の両方に依存していることがわかった。
- 参考スコア(独自算出の注目度): 52.98034458924209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the capabilities of Large Language Models (LLMs) have been studied in both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit differential performance when prompted in these two variants of written Chinese. This understanding is critical, as disparities in the quality of LLM responses can perpetuate representational harms by ignoring the different cultural contexts underlying Simplified versus Traditional Chinese, and can exacerbate downstream harms in LLM-facilitated decision-making in domains such as education or hiring. To investigate potential LLM performance disparities, we design two benchmark tasks that reflect real-world scenarios: regional term choice (prompting the LLM to name a described item which is referred to differently in Mainland China and Taiwan), and regional name choice (prompting the LLM to choose who to hire from a list of names in both Simplified and Traditional Chinese). For both tasks, we audit the performance of 11 leading commercial LLM services and open-sourced models -- spanning those primarily trained on English, Simplified Chinese, or Traditional Chinese. Our analyses indicate that biases in LLM responses are dependent on both the task and prompting language: while most LLMs disproportionately favored Simplified Chinese responses in the regional term choice task, they surprisingly favored Traditional Chinese names in the regional name choice task. We find that these disparities may arise from differences in training data representation, written character preferences, and tokenization of Simplified and Traditional Chinese. These findings highlight the need for further analysis of LLM biases; as such, we provide an open-sourced benchmark dataset to foster reproducible evaluations of future LLM behavior across Chinese language variants (https://github.com/brucelyu17/SC-TC-Bench).
- Abstract(参考訳): 大言語モデル(LLM)の能力は、簡体中国語と伝統中国語の両方で研究されているが、これらの2つの中国語の変種を推し進める際、LLMが差分性能を示すかどうかはまだ分かっていない。
この理解は、LLMの応答の質の相違は、単純化と伝統中国語の背景にある異なる文化的文脈を無視し、教育や雇用といった分野におけるLLMに精通した意思決定において下流の害を悪化させることによって、表現上の害を永久に和らげることができるため、重要である。
実世界のシナリオを反映した2つのベンチマークタスクを設計し,地域用語選択(中国本土と台湾で異なる名称の記載項目にLLMを付与する)と地域名選択(簡体字と漢文の両方の名称リストからLLMを採用するかを選択する)について検討した。
両方のタスクで、主に英語、簡体字中国語、伝統中国語でトレーニングされた11の商業LLMサービスとオープンソースモデルのパフォーマンスを監査します。
分析の結果, LLM応答のバイアスは, 課題と促進言語の両方に依存していることが示唆された。ほとんどのLLMは, 地域用語選択タスクにおいて簡素な中国語応答を好んだが, 地域名選択タスクでは驚くほど伝統的な中国語名を好んだ。
これらの相違は、訓練データ表現の相違、文字の好みの書き方、簡素な中国語と伝統中国語のトークン化から生じる可能性がある。
これらの結果は,LLMバイアスのさらなる分析の必要性を浮き彫りにしている。これにより,中国語の変種(https://github.com/brucelyu17/SC-TC-Bench)間で,将来のLCMの振る舞いの再現可能な評価を促進するための,オープンソースのベンチマークデータセットを提供する。
関連論文リスト
- Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [34.07537926291133]
CHARMは、中国語で大規模言語モデル(LLM)の常識推論能力を評価するための、網羅的で詳細なベンチマークである。
我々はCHARMで7つの英語と12の中国語のLLMを評価した。
一部のLLMは中国の常識を覚えることに苦労し、推論能力に影響を及ぼす一方、同様のパフォーマンスにもかかわらず推論の違いを示す。
論文 参考訳(メタデータ) (2024-03-21T03:52:01Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - On the (In)Effectiveness of Large Language Models for Chinese Text
Correction [44.32102000125604]
大規模言語モデル(LLM)は、人工知能コミュニティ全体を驚かせた。
本研究は,中国語のNLP課題である中国語のテキスト訂正に焦点を当てた。
LLMは、現在、中国語のテキスト訂正において、素晴らしいパフォーマンスと不満足な動作の両方を持っていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-07-18T06:48:52Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。