論文の概要: Evaluation of Geographical Distortions in Language Models: A Crucial Step Towards Equitable Representations
- arxiv url: http://arxiv.org/abs/2404.17401v1
- Date: Fri, 26 Apr 2024 13:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 13:05:13.689241
- Title: Evaluation of Geographical Distortions in Language Models: A Crucial Step Towards Equitable Representations
- Title(参考訳): 言語モデルにおける地理的歪みの評価 : 等価表現に向けての重要なステップ
- Authors: Rémy Decoupes, Roberto Interdonato, Mathieu Roche, Maguelonne Teisseire, Sarah Valentin,
- Abstract要約: 本研究は地理的知識に関するバイアスに焦点を当てる。
地理モデルと言語モデルとの関係を,空間情報を誤表現する傾向を強調して検討する。
- 参考スコア(独自算出の注目度): 2.825324306665133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models now constitute essential tools for improving efficiency for many professional tasks such as writing, coding, or learning. For this reason, it is imperative to identify inherent biases. In the field of Natural Language Processing, five sources of bias are well-identified: data, annotation, representation, models, and research design. This study focuses on biases related to geographical knowledge. We explore the connection between geography and language models by highlighting their tendency to misrepresent spatial information, thus leading to distortions in the representation of geographical distances. This study introduces four indicators to assess these distortions, by comparing geographical and semantic distances. Experiments are conducted from these four indicators with ten widely used language models. Results underscore the critical necessity of inspecting and rectifying spatial biases in language models to ensure accurate and equitable representations.
- Abstract(参考訳): 言語モデルは、筆記、コーディング、学習といった多くの専門的なタスクの効率性を改善するために不可欠なツールとなっている。
そのため、本質的な偏見を特定することが不可欠である。
自然言語処理の分野では、データ、アノテーション、表現、モデル、研究設計という5つのバイアス源が明確に識別されている。
本研究は地理的知識に関するバイアスに焦点を当てる。
地理モデルと言語モデルの関連性について検討し,空間情報を誤表現する傾向を強調し,地理的距離の表現に歪みをもたらす。
本研究では、地理的距離と意味的距離を比較することにより、これらの歪みを評価するための4つの指標を紹介する。
この4つの指標から10種類の広く使われている言語モデルを用いて実験を行った。
その結果, 言語モデルにおける空間バイアスの検査と修正が, 正確かつ公平な表現を確実にするための重要な必要性を浮き彫りにした。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Geographically-Informed Language Identification [0.6445605125467574]
本稿では,本モデルが考慮する言語の集合が問題となるテキストの地理的起源に依存する言語識別へのアプローチを開発する。
16の地域固有のモデルを定式化しており、それぞれが、その地域内の国で現れると思われる言語を含んでいる。
これらの地域モデルは、場所に関係なく、これらの言語を確実にカバーするために、31の国際言語も含んでいる。
論文 参考訳(メタデータ) (2024-03-14T21:55:17Z) - On the Scaling Laws of Geographical Representation in Language Models [0.11510009152620666]
地理的知識は,小さなモデルであっても観測可能であること,モデルのサイズが大きくなるにつれて連続的に拡張可能であることを示す。
特に、より大規模な言語モデルでは、トレーニングデータに固有の地理的バイアスを緩和できない。
論文 参考訳(メタデータ) (2024-02-29T18:04:11Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Logographic Information Aids Learning Better Representations for Natural
Language Inference [3.677231059555795]
本稿では,より優れた意味表現を学習する上で,言語モデルにログ情報を提供することのメリットを探求する新しい研究を提案する。
6つの言語で評価した結果,ロゴグラフシステムを持つ言語にマルチモーダル埋め込みを組み込むことによる大きなメリットが示唆された。
論文 参考訳(メタデータ) (2022-11-03T20:40:14Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Do Language Models Know the Way to Rome? [4.344337854565144]
我々は地理的に地平の真理が地域関係を超えて利用できるという事実を生かしている。
言語モデルは通常、限られた地理的情報をエンコードするが、より大きなモデルは最高の性能を発揮する。
論文 参考訳(メタデータ) (2021-09-16T13:28:16Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。