論文の概要: This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language
Models
- arxiv url: http://arxiv.org/abs/2305.14610v2
- Date: Wed, 18 Oct 2023 22:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:10:23.085884
- Title: This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language
Models
- Title(参考訳): この土地は『Your, My} Land: Evaluating Geopolitical Biases in Language Models』である
- Authors: Bryan Li, Chris Callison-Burch
- Abstract要約: 我々は,大規模言語モデル (LLM) が言語間で矛盾する地政学的知識を想起することを示す。
対象とするケーススタディとして、領土紛争、本質的に議論の余地があり、言語横断的な課題を考察する。
本研究では,実際の地政学的状況に対する応答を精度で比較した評価指標群を提案する。
- 参考スコア(独自算出の注目度): 53.92008514395125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do the Spratly Islands belong to China, the Philippines, or Vietnam? A
pretrained large language model (LLM) may answer differently if asked in the
languages of each claimant country: Chinese, Tagalog, or Vietnamese. This
contrasts with a multilingual human, who would likely answer consistently. In
this work, we show that LLMs recall geopolitical knowledge inconsistently
across languages -- a phenomenon we term geopolitical bias. As a targeted case
study, we consider territorial disputes, inherently controversial and
cross-lingual task.
We first introduce the BorderLines dataset of territorial disputes. This
covers 256 territories, each of which is associated to a set of multiple-choice
questions in the languages of each claimant country (48 languages total). We
then pose these questions to LLMs to probe their internal knowledge. Finally,
we propose a suite of evaluation metrics based on accuracy, which compares
responses with respect to the actual geopolitical situation, and consistency of
the responses in different languages. These metrics allow us to quantify
several findings, which include instruction-tuned LLMs underperforming base
ones, and geopolitical bias being amplified in stronger models. We release our
code and dataset to facilitate future investigation and mitigation of
geopolitical bias.
- Abstract(参考訳): スプラトリー諸島は中国、フィリピン、ベトナムに属していますか。
事前訓練された大型言語モデル (LLM) は、中国語、タガログ語、ベトナム語など、各主張国の言語で質問された場合、異なる回答をすることができる。
これは、一貫して答える可能性が高い多言語人間とは対照的である。
本研究では,LLMが言語間で矛盾する地政学的知識を想起させる現象であることを示す。
対象とするケーススタディとして,本質的に物議を醸し,言語横断的な課題である領土紛争を考える。
まず、国境紛争のデータセットを紹介する。
これは256の領域をカバーし、それぞれが各主張国(合計48言語)の言語における複数の質問に関連付けられている。
次に、これらの質問をLLMに当てて、内部知識を調査します。
最後に,実際の地政学的状況に対する応答と,異なる言語における応答の一貫性を比較する,正確性に基づく評価指標のスイートを提案する。
これらの指標は, 基本性能の低い命令調整LDMや, より強いモデルで増幅された地政学的バイアスなど, いくつかの知見を定量化することができる。
地政学的バイアスの今後の調査と緩和を容易にするために、コードとデータセットをリリースします。
関連論文リスト
- Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs [31.893686987768742]
言語モデルは、言語全体で同じ事実に答える能力に矛盾する。
モデルがクエリに一貫して答える能力と、複数の言語で共有された表現で'ストア'する能力の2つの側面から、多言語的な事実知識を探求する。
論文 参考訳(メタデータ) (2024-08-20T08:38:30Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ [16.637598165238934]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。
近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。
我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文 参考訳(メタデータ) (2024-03-06T16:01:44Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Towards Measuring the Representation of Subjective Global Opinions in Language Models [26.999751306332165]
大規模言語モデル(LLM)は、社会問題に関する多様なグローバルな視点を公平に表すものではない。
本研究では,どの意見がモデル生成応答に類似しているかを定量的に評価する枠組みを開発する。
他者が使用して構築するためのデータセットをリリースしています。
論文 参考訳(メタデータ) (2023-06-28T17:31:53Z) - GeoMLAMA: Geo-Diverse Commonsense Probing on Multilingual Pre-Trained
Language Models [68.50584946761813]
我々は多言語言語モデル(mPLM)に基づく地理多言語共通感覚探索のためのフレームワークを提案する。
我々は、GeoMLAMAデータセット上のmBERT、XLM、mT5、XGLMの変種を含む11の標準mPLMをベンチマークする。
1)大きなmPLMの変種は、必ずしもその小さな変種よりもジオ・ディバースの概念を保存していないこと,2)mPLMは西欧の知識に固有の偏りがないこと,3)母国よりも母国に関する知識を調査する方がよいこと,などが分かる。
論文 参考訳(メタデータ) (2022-05-24T17:54:50Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。