論文の概要: An Enhanced Corpus for Arabic Newspapers Comments
- arxiv url: http://arxiv.org/abs/2102.09965v1
- Date: Mon, 8 Feb 2021 10:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:34:32.806194
- Title: An Enhanced Corpus for Arabic Newspapers Comments
- Title(参考訳): アラビア語新聞コメント用コーパスの強化
- Authors: Hichem Rahab, Abdelhafid Zitouni, Mahieddine Djoudi (TECHN\'E - EA
6316)
- Abstract要約: アルジェリアのアラビア語新聞のコメント専用のコーパスを作成するための拡張アプローチを提案する。
コーパスは、よく知られた3つのアルジェリアの新聞のウェブサイトからコメントを集めることで作成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose our enhanced approach to create a dedicated corpus
for Algerian Arabic newspapers comments. The developed approach has to enhance
an existing approach by the enrichment of the available corpus and the
inclusion of the annotation step by following the Model Annotate Train Test
Evaluate Revise (MATTER) approach. A corpus is created by collecting comments
from web sites of three well know Algerian newspapers. Three classifiers,
support vector machines, na{\"i}ve Bayes, and k-nearest neighbors, were used
for classification of comments into positive and negative classes. To identify
the influence of the stemming in the obtained results, the classification was
tested with and without stemming. Obtained results show that stemming does not
enhance considerably the classification due to the nature of Algerian comments
tied to Algerian Arabic Dialect. The promising results constitute a motivation
for us to improve our approach especially in dealing with non Arabic sentences,
especially Dialectal and French ones.
- Abstract(参考訳): 本稿では,アルジェリアのアラビア語新聞のコメント専用のコーパスを作成するための拡張アプローチを提案する。
開発したアプローチは、利用可能なコーパスの充実と、Model Annotate Train Test Evaluate Revise (MATTER)アプローチに従うことでアノテーションのステップを含めることで、既存のアプローチを強化する必要がある。
コーパスは、よく知られた3つのアルジェリアの新聞のウェブサイトからコメントを集めることで作成される。
3つの分類器、サポートベクトルマシン、na{\"i}ve Bayes、k-nearestの隣人は、コメントを正と負のクラスに分類するために使われた。
以上の結果から, ステミングによる影響を明らかにするために, ステミングの有無にかかわらず, 分類を検証した。
以上の結果から,アルジェリア方言に関連付けられたアルジェリア語のコメントの性質から,茎の分類が著しく向上しないことが示された。
有望な結果は、特に非アラビア語文、特に方言とフランス語文を扱う際に、我々のアプローチを改善する動機となっている。
関連論文リスト
- FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis [0.0]
アルジェ方言(AD)は、注釈付きコーパスがないため、課題に直面している。
本研究では,Fake News(FN)検出・感情分析(SA)のための専門コーパスの開発プロセスについて概説する。
論文 参考訳(メタデータ) (2024-11-07T10:39:10Z) - Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Effect of Word Embedding Variable Parameters on Arabic Sentiment
Analysis Performance [0.0]
Twitter、Facebookなどのソーシャルメディア。
ユーザーの意見を含むコメントの数が増加しています。
本研究は,アラビア語感情分析のための3つのパラメータ(ウィンドウサイズ,ベクトル次元,負サンプル)について考察する。
4つのバイナリ分類器(ロジスティック回帰、決定木、サポートベクターマシン、ネイブベイ)を使用して感情を検出する。
論文 参考訳(メタデータ) (2021-01-08T08:31:00Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Predicting the Humorousness of Tweets Using Gaussian Process Preference
Learning [56.18809963342249]
本稿では,人間の嗜好判断と言語アノテーションの自動生成を利用して,短文のユーモラスさのランク付けと評価を学習する確率論的アプローチを提案する。
本研究は, HAHA@IberLEF 2019データにおける数値スコアの変換と, 提案手法に必要な判定アノテーションの相互変換から生じる問題点について報告する。
論文 参考訳(メタデータ) (2020-08-03T13:05:42Z) - SANA : Sentiment Analysis on Newspapers comments in Algeria [0.0]
私たちはアルジェリアの新聞のウェブサイトでコメントによる作業に興味を持っています。
SANAとOCAの2つのコーパスが使用された。
分類には、サポートベクトルマシン、ナイーブベイズ(英語版)およびケネレスト隣人(英語版)を採用する。
論文 参考訳(メタデータ) (2020-05-31T08:02:23Z) - Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文 参考訳(メタデータ) (2020-02-10T21:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。