論文の概要: Geographic and Geopolitical Biases of Language Models
- arxiv url: http://arxiv.org/abs/2212.10408v1
- Date: Tue, 20 Dec 2022 16:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:49:46.494953
- Title: Geographic and Geopolitical Biases of Language Models
- Title(参考訳): 言語モデルの地理的・地政学的バイアス
- Authors: Fahim Faisal, Antonios Anastasopoulos
- Abstract要約: プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。
以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。
最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
- 参考スコア(独自算出の注目度): 43.62238334380897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PLMs) often fail to fairly represent target users
from certain world regions because of the under-representation of those regions
in training datasets. With recent PLMs trained on enormous data sources,
quantifying their potential biases is difficult, due to their black-box nature
and the sheer scale of the data sources. In this work, we devise an approach to
study the geographic bias (and knowledge) present in PLMs, proposing a
Geographic-Representation Probing Framework adopting a self-conditioning method
coupled with entity-country mappings. Our findings suggest PLMs'
representations map surprisingly well to the physical world in terms of
country-to-country associations, but this knowledge is unequally shared across
languages. Last, we explain how large PLMs despite exhibiting notions of
geographical proximity, over-amplify geopolitical favouritism at inference
time.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、トレーニングデータセットにおけるこれらの領域の表現不足のため、特定の世界領域のターゲットユーザを適切に表現できないことが多い。
最近のPLMは膨大なデータソースで訓練されているため、そのブラックボックスの性質とデータソースの厳密なスケールのため、潜在的なバイアスの定量化は難しい。
本研究では, PLM における地理的バイアス(と知識)の研究手法を考案し, 自己条件法とエンティティ・カントリー・マッピングを併用した地理表現探索フレームワークを提案する。
以上の結果から,plmsの表現は,国間関係という観点からは,物理的世界に驚くほどよくマッピングできることが示唆されたが,この知識は言語間で等しく共有されている。
最後に,地理的近接概念を呈するにもかかわらず,測地時の地政学的嗜好を過度に増幅するPLMがいかに大きいかを説明する。
関連論文リスト
- Where on Earth Do Users Say They Are?: Geo-Entity Linking for Noisy Multilingual User Input [2.516307239032451]
本稿では,実世界の位置情報をラベル付きユーザ・インプット・ロケーション名から平均的な埋め込みとして表現する手法を提案する。
本稿では,グローバルおよび多言語ソーシャルメディアデータセット上でのジオエンタリティリンクの改善について述べる。
論文 参考訳(メタデータ) (2024-04-29T15:18:33Z) - Large Language Models are Geographically Biased [47.88767211956144]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - Geographical Erasure in Language Generation [13.219867587151986]
我々は、言語モデルが特定の国を過小評価する、地理的消去の一形態を研究し、運用する。
その結果, 減退は, トレーニングコーパスで言及される国の言及頻度の低さと強く相関していることが判明した。
我々は、カスタムな目的を用いて微調整により消去を緩和する。
論文 参考訳(メタデータ) (2023-10-23T10:26:14Z) - GeoLM: Empowering Language Models for Geospatially Grounded Language
Understanding [45.36562604939258]
本稿では,自然言語におけるジオテリティーの理解を深める言語モデルGeoLMを紹介する。
また、GeoLMは、トポノニム認識、トポノニムリンク、関係抽出、ジオエンタリティタイピングをサポートする有望な能力を示すことを示した。
論文 参考訳(メタデータ) (2023-10-23T01:20:01Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Geographic Adaptation of Pretrained Language Models [29.81557992080902]
マルチタスク学習環境において,言語モデリングと位置情報予測を併用する中間学習ステップであるジオアダプテーションを導入する。
ジオアダプテーションの有効性は、事前訓練された言語モデルの表現空間を地理的に再現する能力に起因していることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。