論文の概要: This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language
Models
- arxiv url: http://arxiv.org/abs/2305.14610v3
- Date: Tue, 13 Feb 2024 16:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:53:45.132857
- Title: This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language
Models
- Title(参考訳): この土地は『Your, My} Land: Evaluating Geopolitical Biases in Language Models』である
- Authors: Bryan Li, Samar Haider, Chris Callison-Burch
- Abstract要約: 大規模言語モデル (LLM) では, 異なる言語を問うと, 地理的知識が不整合に記憶されることが示されている。
対象とするケーススタディとして、本質的に議論の的かつ多言語的な課題である領土紛争を考察する。
本稿では,様々な言語における応答のバイアスと一貫性を正確に定量化するための評価指標を提案する。
- 参考スコア(独自算出の注目度): 45.64209176864875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do the Spratly Islands belong to China, the Philippines, or Vietnam? A
pretrained large language model (LLM) may answer differently if asked in the
languages of each claimant country: Chinese, Tagalog, or Vietnamese. This
contrasts with a multilingual human, who would likely answer consistently. In
this paper, we show that LLMs recall certain geographical knowledge
inconsistently when queried in different languages--a phenomenon we term
geopolitical bias. As a targeted case study, we consider territorial disputes,
an inherently controversial and multilingual task. We introduce BorderLines, a
dataset of territorial disputes which covers 251 territories, each associated
with a set of multiple-choice questions in the languages of each claimant
country (49 languages in total). We also propose a suite of evaluation metrics
to precisely quantify bias and consistency in responses across different
languages. We then evaluate various multilingual LLMs on our dataset and
metrics to probe their internal knowledge and use the proposed metrics to
discover numerous inconsistencies in how these models respond in different
languages. Finally, we explore several prompt modification strategies, aiming
to either amplify or mitigate geopolitical bias, which highlights how brittle
LLMs are and how they tailor their responses depending on cues from the
interaction context.
- Abstract(参考訳): スプラトリー諸島は中国、フィリピン、ベトナムに属していますか。
事前訓練された大型言語モデル (LLM) は、中国語、タガログ語、ベトナム語など、各主張国の言語で質問された場合、異なる回答をすることができる。
これは、一貫して答える可能性が高い多言語人間とは対照的である。
本稿では,異なる言語で問合せされた場合,llmが地理的知識を不整合に覚えていることを示す。
対象とするケーススタディとして,本質的に物議を醸している多言語課題である領土紛争を考える。
BorderLinesは251の領域をカバーする領土紛争のデータセットで、各主張国(計49の言語)の言語における複数の選択に関する質問に関連付けられている。
また,異なる言語間の応答のバイアスと一貫性を正確に定量化するための評価指標も提案する。
次に、データセットとメトリクスに基づいて様々な多言語LLMを評価し、それらの内部知識を探索し、提案したメトリクスを使用して、これらのモデルが異なる言語でどのように反応するかの多くの矛盾を検出する。
最後に,地政学的バイアスを増幅あるいは緩和することを目的とした,いくつかの迅速な修正戦略を検討する。
関連論文リスト
- Evaluating the Elementary Multilingual Capabilities of Large Language
Models with MultiQ [15.844303418745692]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。
近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。
我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文 参考訳(メタデータ) (2024-03-06T16:01:44Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Towards Measuring the Representation of Subjective Global Opinions in
Language Models [14.056632134768023]
大規模言語モデル(LLM)は、社会問題に関する多様なグローバルな視点を公平に表すものではない。
本研究では,どの意見がモデル生成応答に類似しているかを定量的に評価する枠組みを開発する。
他者が使用して構築するためのデータセットをリリースしています。
論文 参考訳(メタデータ) (2023-06-28T17:31:53Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World [2.0777058026628583]
NLP世界の言語格差は近年広く認識されている問題である。
本稿では,世界の言語に存在する格差を包括的に分析する。
論文 参考訳(メタデータ) (2022-10-16T12:50:30Z) - GeoMLAMA: Geo-Diverse Commonsense Probing on Multilingual Pre-Trained
Language Models [68.50584946761813]
我々は多言語言語モデル(mPLM)に基づく地理多言語共通感覚探索のためのフレームワークを提案する。
我々は、GeoMLAMAデータセット上のmBERT、XLM、mT5、XGLMの変種を含む11の標準mPLMをベンチマークする。
1)大きなmPLMの変種は、必ずしもその小さな変種よりもジオ・ディバースの概念を保存していないこと,2)mPLMは西欧の知識に固有の偏りがないこと,3)母国よりも母国に関する知識を調査する方がよいこと,などが分かる。
論文 参考訳(メタデータ) (2022-05-24T17:54:50Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - TyDi QA: A Benchmark for Information-Seeking Question Answering in
Typologically Diverse Languages [27.588857710802113]
TyDi QAは、204Kの問合せ対を持つ11の類型的多様言語をカバーする質問応答データセットである。
本稿では,観測された言語現象のデータ品質と例レベルの定性言語分析について定量的に分析する。
論文 参考訳(メタデータ) (2020-03-10T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。