論文の概要: Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf
- arxiv url: http://arxiv.org/abs/2312.03727v1
- Date: Mon, 27 Nov 2023 15:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:07:39.656264
- Title: Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf
- Title(参考訳): 低資源アラビア語における感情と憎悪行動の分析のためのコンテンツローカライズに基づくシステム:英語からレバンタ、湾
- Authors: Fatimah Alzamzami, Abdulmotaleb El Saddik
- Abstract要約: 本稿では,高リソース言語における資源の内容を,低リソースアラビア語方言にローカライズすることを提案する。
我々は、コンテンツローカライゼーションに基づくニューラルマシン翻訳を用いて、レバンタインとガルフの2つの低リソースアラビア語方言に対する感情と憎悪の分類器を開発する。
以上の結果から,同一言語における方言の特異性を考慮し,方言的側面を無視することが,誤解を招く可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.2957928879391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though online social movements can quickly become viral on social media,
languages can be a barrier to timely monitoring and analyzing the underlying
online social behaviors (OSB). This is especially true for under-resourced
languages on social media like dialectal Arabic; the primary language used by
Arabs on social media. Therefore, it is crucial to provide solutions to
efficiently exploit resources from high-resourced languages to solve
language-dependent OSB analysis in under-resourced languages. This paper
proposes to localize content of resources in high-resourced languages into
under-resourced Arabic dialects. Content localization goes beyond content
translation that converts text from one language to another; content
localization adapts culture, language nuances and regional preferences from one
language to a specific language/dialect. Automating understanding of the
natural and familiar day-to-day expressions in different regions, is the key to
achieve a wider analysis of OSB especially for smart cities. In this paper, we
utilize content-localization based neural machine translation to develop
sentiment and hate classifiers for two low-resourced Arabic dialects: Levantine
and Gulf. Not only this but we also leverage unsupervised learning to
facilitate the analysis of sentiment and hate predictions by inferring hidden
topics from the corresponding data and providing coherent interpretations of
those topics in their native language/dialects. The experimental evaluations
and proof-of-concept COVID-19 case study on real data have validated the
effectiveness of our proposed system in precisely distinguishing sentiments and
accurately identifying hate content in both Levantine and Gulf Arabic dialects.
Our findings shed light on the importance of considering the unique nature of
dialects within the same language and ignoring the dialectal aspect would lead
to misleading analysis.
- Abstract(参考訳): オンラインソーシャルムーブメントは、ソーシャルメディア上で急速にバイラルになり得るが、言語は、基盤となるオンラインソーシャル行動(osb)をタイムリーに監視し分析するための障壁となり得る。
これは特に、方言アラビア語のようなソーシャルメディア上の非ソース言語に当てはまり、アラブ人がソーシャルメディアで使用する主要な言語である。
したがって、低リソース言語における言語依存OSB分析を解くために、高リソース言語からのリソースを効率的に活用するソリューションを提供することが重要である。
本稿では,高資源言語における資源の内容を,低資源アラビア語にローカライズすることを提案する。
コンテンツローカライゼーションは、ある言語から別の言語へテキストを変換するコンテンツ翻訳に留まらず、コンテンツローカライゼーションは、ある言語から特定の言語/方言への文化、言語ニュアンス、地域的嗜好に適応する。
自然で慣れ親しんだ日々の表現の理解を自動化することは、特にスマートシティにおいてOSBをより広く分析する鍵となる。
本稿では,コンテンツローカライズに基づくニューラルマシン翻訳を用いて,レバンティン方言とガルフ方言の感情・憎悪分類器を開発した。
これだけでなく、教師なし学習を活用して、対応するデータから隠れたトピックを推測し、それらのトピックを母国語/方言でコヒーレントに解釈することで、感情や憎悪の予測の分析を容易にする。
実データを用いた実験評価と概念実証実験により,本システムの有効性が検証され,レバンタイン方言とガルフアラビア語の両方において,感情を正確に識別し,ヘイトコンテンツを正確に識別した。
本研究は,同言語における方言の独特な性質を考察し,方言的側面を無視することの重要性を浮き彫りにした。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A simple language-agnostic yet very strong baseline system for hate
speech and offensive content identification [0.0]
古典的な教師付きアルゴリズムに基づくシステムは、文字n-gramのみを供給し、したがって完全に言語に依存しないシステムを提案する。
英語では中程度のパフォーマンスに達しており、ディープラーニングアプローチの開発が容易な言語である。
これらの言語の3つのタスクでパフォーマンスが平均化され、多くのディープラーニングアプローチを上回ります。
論文 参考訳(メタデータ) (2022-02-05T08:09:09Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language [1.2246649738388389]
ベンガル語からのヘイトスピーチ検出のための説明可能なアプローチを提案する。
我々のアプローチでは、ベンガルのテキストは、政治的、個人的、地政学的、宗教的憎悪に分類する前に、最初に包括的に前処理される。
機械学習(線形および木ベースのモデル)およびディープニューラルネットワーク(CNN、Bi-LSTM、Conv-LSTMなどの単語埋め込み)に対する評価は、それぞれ政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアは84%、90%、88%、88%である。
論文 参考訳(メタデータ) (2020-12-28T16:46:03Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。