Fugu-MT 論文翻訳(概要): Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages

論文の概要: Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages

arxiv url: http://arxiv.org/abs/2206.07238v1
Date: Wed, 15 Jun 2022 01:53:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-16 12:46:58.718273
Title: Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages
Title（参考訳）: インドネシアのローカル言語における低リソース言語データセット作成のための位置ベースのtwitterフィルタリング
Authors: Mukhlis Amien, Chong Feng, Heyan Huang
Abstract要約: インドネシア語などの低リソース言語におけるユーザ生成コンテンツに対するTwitterの検討を行った。本稿では,インドネシアのNLPデータセットを構築する際に直面する問題点について述べる。 NLPのためのローカルインドネシアのデータセットの作成、収集、分類のためのフレームワークを開発しています。
参考スコア（独自算出の注目度）: 34.88325684985686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Twitter contains an abundance of linguistic data from the real world. We examine Twitter for user-generated content in low-resource languages such as local Indonesian. For NLP to work in Indonesian, it must consider local dialects, geographic context, and regional culture influence Indonesian languages. This paper identifies the problems we faced when constructing a Local Indonesian NLP dataset. Furthermore, we are developing a framework for creating, collecting, and classifying Local Indonesian datasets for NLP. Using twitter's geolocation tool for automatic annotating.
Abstract（参考訳）: Twitterには、現実世界の言語データが多く含まれている。インドネシア語などの低リソース言語におけるユーザ生成コンテンツに対するTwitterの検討を行った。 NLPがインドネシア語で働くためには、現地の方言、地理的文脈、地域文化がインドネシア語に影響を与える必要がある。本稿では,インドネシアのnlpデータセット構築時の問題点を明らかにする。さらに,インドネシアのnlp用データセットの作成,収集,分類のためのフレームワークを開発した。自動アノテートにtwitterのジオロケーションツールを使用する。

関連論文リスト

Detecting Linguistic Diversity on Social Media [1.3108652488669732]
我々は、公表された国勢調査データを基礎的真実として、また、グローバル言語利用コーパスのソーシャルメディアサブコーパスを代替データソースとして使用しています。ソーシャルメディアデータセットにおける各ツイートの言語条件を特定し、2つの言語識別モデルを用いて結果を検証する。その結果,ソーシャルメディアの言語データは,ある場所の言語的プロファイルに関する空間的・時間的洞察の豊富な情報源となる可能性が示唆された。
論文参考訳（メタデータ） (2025-02-28T16:56:34Z)
Leveraging Large Language Models to Geolocate Linguistic Variations in Social Media Posts [0.0]
大きな言語モデル(LLM)を活用することで、イタリア語で書かれたツイートをジオローカライズするという課題に対処する。我々のアプローチは、これらの地理的局在化の側面を同時に予測するために、訓練済みのLLMを微調整することである。この研究は、バーティノロ国際スプリングスクール2024のLarge Language Modelsコースの一部として実施されている。
論文参考訳（メタデータ） (2024-07-22T20:54:35Z)
Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages [55.963648108438555]
大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。我々は、デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含むインドネシアのLLMのコレクションであるCendolを紹介する。さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、その一般化能力を実証した。
論文参考訳（メタデータ） (2024-04-09T09:04:30Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian Local Languages [62.60787450345489]
インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
論文参考訳（メタデータ） (2023-11-21T07:50:53Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文参考訳（メタデータ） (2022-12-19T17:28:22Z)
NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文参考訳（メタデータ） (2022-05-31T17:03:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。