論文の概要: Geographically-Informed Language Identification
- arxiv url: http://arxiv.org/abs/2403.09892v1
- Date: Thu, 14 Mar 2024 21:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:05:51.152708
- Title: Geographically-Informed Language Identification
- Title(参考訳): 地理的インフォームド言語同定
- Authors: Jonathan Dunn, Lane Edwards-Brown,
- Abstract要約: 本稿では,本モデルが考慮する言語の集合が問題となるテキストの地理的起源に依存する言語識別へのアプローチを開発する。
16の地域固有のモデルを定式化しており、それぞれが、その地域内の国で現れると思われる言語を含んでいる。
これらの地域モデルは、場所に関係なく、これらの言語を確実にカバーするために、31の国際言語も含んでいる。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper develops an approach to language identification in which the set of languages considered by the model depends on the geographic origin of the text in question. Given that many digital corpora can be geo-referenced at the country level, this paper formulates 16 region-specific models, each of which contains the languages expected to appear in countries within that region. These regional models also each include 31 widely-spoken international languages in order to ensure coverage of these linguae francae regardless of location. An upstream evaluation using traditional language identification testing data shows an improvement in f-score ranging from 1.7 points (Southeast Asia) to as much as 10.4 points (North Africa). A downstream evaluation on social media data shows that this improved performance has a significant impact on the language labels which are applied to large real-world corpora. The result is a highly-accurate model that covers 916 languages at a sample size of 50 characters, the performance improved by incorporating geographic information into the model.
- Abstract(参考訳): 本稿では,本モデルが考慮する言語の集合が問題となるテキストの地理的起源に依存する言語識別へのアプローチを開発する。
国レベルでは,多くのデジタルコーパスをジオレファレンスすることができることから,本論文は16の地域特化モデルを定式化した。
これらの地域モデルは、場所に関係なく、これらの言語を確実にカバーするために、31の国際言語も含んでいる。
従来の言語識別試験データを用いた上流評価では、fスコアは1.7ポイント(東南アジア)から10.4ポイント(北アフリカ)まで改善されている。
ソーシャルメディアデータに対するダウンストリーム評価は、この改善された性能が、大規模な実世界のコーパスに適用される言語ラベルに大きな影響を与えることを示している。
その結果,50文字のサンプルサイズで916言語をカバーする高精度モデルが得られた。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Evaluation of Geographical Distortions in Language Models: A Crucial Step Towards Equitable Representations [2.825324306665133]
本研究は地理的知識に関するバイアスに焦点を当てる。
地理モデルと言語モデルとの関係を,空間情報を誤表現する傾向を強調して検討する。
論文 参考訳(メタデータ) (2024-04-26T13:22:28Z) - On the Scaling Laws of Geographical Representation in Language Models [0.11510009152620666]
地理的知識は,小さなモデルであっても観測可能であること,モデルのサイズが大きくなるにつれて連続的に拡張可能であることを示す。
特に、より大規模な言語モデルでは、トレーニングデータに固有の地理的バイアスを緩和できない。
論文 参考訳(メタデータ) (2024-02-29T18:04:11Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Language Identification for Austronesian Languages [0.0]
本稿では,太平洋地域の低リソース・低リソース言語を対象とした言語識別モデルを提案する。
我々は、29のオーストロネシア語と171の非オーストロネシア語を組み合わせて評価セットを作成します。
さらなる実験では、これらの言語識別モデルをコードスイッチング検出に適用し、29言語すべてで高い精度を達成する。
論文 参考訳(メタデータ) (2022-06-09T08:08:18Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。