論文の概要: Geographical Erasure in Language Generation
- arxiv url: http://arxiv.org/abs/2310.14777v1
- Date: Mon, 23 Oct 2023 10:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:59:18.603353
- Title: Geographical Erasure in Language Generation
- Title(参考訳): 言語生成における地理的消去
- Authors: Pola Schw\"obel, Jacek Golebiowski, Michele Donini, C\'edric
Archambeau, Danish Pruthi
- Abstract要約: 我々は、言語モデルが特定の国を過小評価する、地理的消去の一形態を研究し、運用する。
その結果, 減退は, トレーニングコーパスで言及される国の言及頻度の低さと強く相関していることが判明した。
我々は、カスタムな目的を用いて微調整により消去を緩和する。
- 参考スコア(独自算出の注目度): 13.219867587151986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) encode vast amounts of world knowledge. However,
since these models are trained on large swaths of internet data, they are at
risk of inordinately capturing information about dominant groups. This
imbalance can propagate into generated language. In this work, we study and
operationalise a form of geographical erasure, wherein language models
underpredict certain countries. We demonstrate consistent instances of erasure
across a range of LLMs. We discover that erasure strongly correlates with low
frequencies of country mentions in the training corpus. Lastly, we mitigate
erasure by finetuning using a custom objective.
- Abstract(参考訳): 大規模言語モデル(LLM)は膨大な量の世界の知識を符号化する。
しかし、これらのモデルは大量のインターネットデータに基づいて訓練されているため、支配的なグループに関する情報を不規則に取得するリスクがある。
この不均衡は生成された言語に伝播する。
本研究では,言語モデルが特定の国を過小評価する,地理的消去の形式を研究・運用する。
様々なLSMに対して一貫した消去例を示す。
その結果, 減退は, トレーニングコーパスにおける言及頻度の低さと強く相関していることが判明した。
最後に,カスタム目的を用いた微調整により消去を緩和する。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - On the Scaling Laws of Geographical Representation in Language Models [0.11510009152620666]
地理的知識は,小さなモデルであっても観測可能であること,モデルのサイズが大きくなるにつれて連続的に拡張可能であることを示す。
特に、より大規模な言語モデルでは、トレーニングデータに固有の地理的バイアスを緩和できない。
論文 参考訳(メタデータ) (2024-02-29T18:04:11Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Geographic and Geopolitical Biases of Language Models [43.62238334380897]
プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。
以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。
最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
論文 参考訳(メタデータ) (2022-12-20T16:32:54Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Do Language Models Know the Way to Rome? [4.344337854565144]
我々は地理的に地平の真理が地域関係を超えて利用できるという事実を生かしている。
言語モデルは通常、限られた地理的情報をエンコードするが、より大きなモデルは最高の性能を発揮する。
論文 参考訳(メタデータ) (2021-09-16T13:28:16Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。