論文の概要: Algerian Dialect
- arxiv url: http://arxiv.org/abs/2512.19543v1
- Date: Mon, 22 Dec 2025 16:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.836296
- Title: Algerian Dialect
- Title(参考訳): アルジェリア方言
- Authors: Zakaria Benmounah, Abdennour Boulesnane,
- Abstract要約: アルジェリア方言(Algerian Dialect)は、アルジェリアのアラビア語方言で書かれた45,000のコメントからなる大規模な感情注釈付きデータセットである。
コメントは、YouTube Data APIを使用して、30以上のアルジェリアのメディアおよびメディアチャンネルから収集された。
各コメントは、非常にネガティブ、ネガティブ、中立、ポジティブ、そして非常にポジティブな5つのカテゴリの1つに手動で注釈付けされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Algerian Dialect, a large-scale sentiment-annotated dataset consisting of 45,000 YouTube comments written in Algerian Arabic dialect. The comments were collected from more than 30 Algerian press and media channels using the YouTube Data API. Each comment is manually annotated into one of five sentiment categories: very negative, negative, neutral, positive, and very positive. In addition to sentiment labels, the dataset includes rich metadata such as collection timestamps, like counts, video URLs, and annotation dates. This dataset addresses the scarcity of publicly available resources for Algerian dialect and aims to support research in sentiment analysis, dialectal Arabic NLP, and social media analytics. The dataset is publicly available on Mendeley Data under a CC BY 4.0 license at https://doi.org/10.17632/zzwg3nnhsz.2.
- Abstract(参考訳): アルジェリア・ダイアレクト(Algerian Dialect)は、アルジェリア・アラビア方言で書かれた45,000のYouTubeコメントからなる大規模な感情アノテートデータセットである。
コメントは、YouTube Data APIを使用して、30以上のアルジェリアのメディアおよびメディアチャンネルから収集された。
各コメントは、非常にネガティブ、ネガティブ、中立、ポジティブ、そして非常にポジティブな5つのカテゴリの1つに手動で注釈付けされる。
感情ラベルに加えて、データセットには、カウント、ビデオURL、アノテーションの日付などのコレクションタイムスタンプなどの豊富なメタデータが含まれている。
このデータセットは、アルジェリア方言の公用資源の不足に対処し、感情分析、アラビア語の方言NLP、ソーシャルメディア分析の研究を支援することを目的としている。
データセットは、CC BY 4.0ライセンスの下でMendley Dataでhttps://doi.org/10.17632/zzwg3nnhsz.2で公開されている。
関連論文リスト
- CAFE A Novel Code switching Dataset for Algerian Dialect French and English [0.0]
アルジェリア方言、フランス語、英語の最初のコードスイッチングデータセット。
CBEは、異なる社会言語学的文脈の中で、アルジェリアの様々な部分から方言のバリエーションを捉えている。
CBEデータには、約37時間の音声が含まれており、サブセットであるCAFE-smallは、2時間36分で人手による注釈が付けられている。
論文 参考訳(メタデータ) (2024-11-20T16:09:16Z) - Hate Speech Detection and Classification in Amharic Text with Deep Learning [4.834669033093363]
我々は、テキストをヘイトスピーチの4つのカテゴリに分類し、検出できるアムハラヘイトスピーチデータとSBi-LSTMディープラーニングモデルを開発した。
われわれは5k Amharicのソーシャルメディア投稿とコメントデータを4つのカテゴリに分類した。
このモデルは94.8F1スコアのパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-07T15:46:45Z) - YODAS: Youtube-Oriented Dataset for Audio and Speech [47.60574092241447]
YODASは100以上の言語で500k時間以上の音声データからなる大規模多言語データセットである。
手動または自動の字幕を含むラベル付きサブセットは、教師付きモデルトレーニングを促進する。
YODASはその規模で最初に公開されたデータセットであり、Creative Commonsライセンスの下で配布されている。
論文 参考訳(メタデータ) (2024-06-02T23:43:27Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z) - EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching [90.98122161162644]
現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
論文 参考訳(メタデータ) (2021-11-17T06:02:43Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - DravidianCodeMix: Sentiment Analysis and Offensive Language
Identification Dataset for Dravidian Languages in Code-Mixed Text [0.9738927161150494]
データセットは、タミル語で約44,000のコメント、カナダ語で約7000のコメント、マラヤ語で約20,000のコメントで構成されている。
このデータはボランティアアノテータによって手動で注釈付けされ、クリッペンドルフのアルファ版では高いアノテータ間合意が結ばれている。
論文 参考訳(メタデータ) (2021-06-17T13:13:26Z) - An open access NLP dataset for Arabic dialects : Data collection,
labeling, and model construction [0.8312466807725921]
いくつかのアラビア方言でソーシャルデータの内容のオープンデータセットを提示する。
このデータはTwitterのソーシャルネットワークから収集され、5つの国語で+50K twitsで構成されています。
このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。
論文 参考訳(メタデータ) (2021-02-07T01:39:52Z) - Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。
我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文 参考訳(メタデータ) (2020-04-05T13:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。