論文の概要: A Cross-Lingual Analysis of Bias in Large Language Models Using Romanian History
- arxiv url: http://arxiv.org/abs/2510.02362v1
- Date: Sun, 28 Sep 2025 13:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.044659
- Title: A Cross-Lingual Analysis of Bias in Large Language Models Using Romanian History
- Title(参考訳): ルーマニアの歴史を用いた大規模言語モデルにおけるバイアスの言語間比較分析
- Authors: Matei-Iulian Cocu, Răzvan-Cosmin Cristia, Adrian Marius Dumitran,
- Abstract要約: 研究プロセスは3段階に分けて実施され、期待する応答の種類がある程度、応答そのものに影響を及ぼすという考え方を確認する。
その結果、バイナリ応答の安定性は比較的高いが、完璧には程遠いことが示され、言語によって異なる。
- 参考スコア(独自算出の注目度): 0.15293427903448023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this case study, we select a set of controversial Romanian historical questions and ask multiple Large Language Models to answer them across languages and contexts, in order to assess their biases. Besides being a study mainly performed for educational purposes, the motivation also lies in the recognition that history is often presented through altered perspectives, primarily influenced by the culture and ideals of a state, even through large language models. Since they are often trained on certain data sets that may present certain ambiguities, the lack of neutrality is subsequently instilled in users. The research process was carried out in three stages, to confirm the idea that the type of response expected can influence, to a certain extent, the response itself; after providing an affirmative answer to some given question, an LLM could shift its way of thinking after being asked the same question again, but being told to respond with a numerical value of a scale. Results show that binary response stability is relatively high but far from perfect and varies by language. Models often flip stance across languages or between formats; numeric ratings frequently diverge from the initial binary choice, and the most consistent models are not always those judged most accurate or neutral. Our research brings to light the predisposition of models to such inconsistencies, within a specific contextualization of the language for the question asked.
- Abstract(参考訳): このケーススタディでは,議論を呼んでいるルーマニアの歴史的質問の集合を選択し,そのバイアスを評価するために,複数の大規模言語モデルに対して言語や文脈にまたがって答えを求める。
主に教育目的で行われた研究であるだけでなく、歴史は大きな言語モデルでさえも、国家の文化や理想に影響され、変化した視点を通してしばしば提示されるという認識にも基づいている。
それらは特定の曖昧さを示す可能性のある特定のデータセットでしばしば訓練されるため、中立性の欠如は後にユーザによってもたらされる。
研究プロセスは, ある質問に対して肯定的な回答を与えた後, LLMは, 同じ質問をしても, スケールの数値で回答するように指示された上で, 思考の仕方を変えることができた。
その結果、バイナリ応答の安定性は比較的高いが、完璧には程遠いことが示され、言語によって異なる。
モデルはしばしば言語やフォーマット間でスタンスを反転させ、数値評価は初期バイナリ選択からしばしば分岐し、最も一貫性のあるモデルは必ずしも最も正確または中立であると判断されるものではない。
我々の研究は、質問に対する言語の特定の文脈化の中で、そのような矛盾に対するモデルの事前配置を明るみにしている。
関連論文リスト
- Linguistic Nepotism: Trading-off Quality for Language Preference in Multilingual RAG [55.258582772528506]
異なる文書言語の混合が意図しない方法で生成と引用に影響を及ぼすかどうかを検討する。
8つの言語と6つのオープンウェイトモデルにまたがって、クエリが英語である場合、モデルは優先的に英語ソースを引用する。
モデルが言語嗜好のトレードオフ文書関連性を示すことがあり、引用選択が情報のみによって常に駆動されるわけではないことが分かる。
論文 参考訳(メタデータ) (2025-09-17T12:58:18Z) - Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Delving into Multilingual Ethical Bias: The MSQAD with Statistical Hypothesis Tests for Large Language Models [7.480124826347168]
本稿では,世界規模で議論され,潜在的にセンシティブなトピックに対するLLMの倫理的バイアスの妥当性と比較について検討する。
我々は、Human Rights Watchから17のトピックに関するニュース記事を収集し、複数の言語で対応する回答とともに、社会的に敏感な質問を生成した。
我々は2つの統計的仮説テストを用いて、これらの応答のバイアスを言語やトピックにわたって精査した。
論文 参考訳(メタデータ) (2025-05-25T12:25:44Z) - Beyond Early-Token Bias: Model-Specific and Language-Specific Position Effects in Multilingual LLMs [50.07451351559251]
我々は,5言語(英語,ロシア語,ドイツ語,ヒンディー語,ベトナム語)にまたがる調査を行った。
位置バイアスが即時戦略とどのように相互作用し、出力エントロピーに影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-05-22T02:23:00Z) - Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Questioning the Survey Responses of Large Language Models [25.14481433176348]
我々は,米国国勢調査局が確立したアメリカン・コミュニティ・サーベイに基づいて,この方法論を批判的に検討する。
まず、モデルの応答は、例えば"A"という文字でラベル付けされた調査応答に対するバイアスの順序付けとラベル付けによって制御される。
第二に、ランダム化された回答順序付けによってこれらの体系的バイアスを調整するとき、ボード全体のモデルが一様ランダムなアンケート応答に向かう傾向にある。
論文 参考訳(メタデータ) (2023-06-13T17:48:27Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。