Fugu-MT 論文翻訳(概要): Toxic language detection: a systematic survey of Arabic datasets

論文の概要: Toxic language detection: a systematic survey of Arabic datasets

arxiv url: http://arxiv.org/abs/2312.07228v1
Date: Tue, 12 Dec 2023 12:43:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 16:15:20.107403
Title: Toxic language detection: a systematic survey of Arabic datasets
Title（参考訳）: 有害言語検出:アラビア語データセットの体系的調査
Authors: Imene Bensalem, Paolo Rosso, Hanane Zitouni
Abstract要約: 本稿では,オンライン有害言語に着目したアラビア語データセットの包括的調査を行う。我々は,49のデータセットとその対応論文を体系的に収集し,コンテンツ,アノテーションプロセス,再利用性という3つの主要な領域にまたがる16の基準を考慮し,徹底的な分析を行った。
参考スコア（独自算出の注目度）: 5.945303394300328
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper offers a comprehensive survey of Arabic datasets focused on online toxic language. We systematically gathered a total of 49 available datasets and their corresponding papers and conducted a thorough analysis, considering 16 criteria across three primary dimensions: content, annotation process, and reusability. This analysis enabled us to identify existing gaps and make recommendations for future research works.
Abstract（参考訳）: 本稿では,オンライン有毒言語に着目したアラビア語データセットの包括的調査を行う。我々は,49のデータセットとその対応論文を体系的に収集し,コンテンツ,アノテーションプロセス,再利用性という3つの主要な領域にまたがる16の基準を考慮し,徹底的な分析を行った。この分析により,既存のギャップを特定し,今後の研究成果の推薦を行うことができた。

関連論文リスト

BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文参考訳（メタデータ） (2025-11-13T14:12:44Z)
Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2025-06-05T17:59:26Z)
EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian [60.61343989805093]
EmoBench-UAはウクライナのテキストで感情を検出するための最初の注釈付きデータセットである。その結果,ウクライナ語のような非主流言語における感情分類の課題が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-29T09:49:57Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
ELCC: the Emergent Language Corpus Collection [1.6574413179773761]
Emergent Language Corpus Collection (ELCC) は、緊急通信システムのオープンソース実装から生成されたコーパスのコレクションである。各コーパスには、ソースコードの特徴を記述したメタデータと、コーパスの分析スイートが添付されている。
論文参考訳（メタデータ） (2024-07-04T21:23:18Z)
A Study on Scaling Up Multilingual News Framing Analysis [23.80807884935475]
本研究では,クラウドソーシングによるデータセット生成の可能性を検討する。まず、英語ニュース以外のフレーミング分析を多言語文脈に拡張する。また、ベンガルとポルトガルの移民と同性結婚に関する新しい基準も提示する。
論文参考訳（メタデータ） (2024-04-01T21:02:18Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Text2Analysis: A Benchmark of Table Question Answering with Advanced Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。 3つの異なる指標を用いて5つの最先端モデルを評価する。
論文参考訳（メタデータ） (2023-12-21T08:50:41Z)
When a Language Question Is at Stake. A Revisited Approach to Label Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文参考訳（メタデータ） (2023-11-17T13:35:10Z)
DN at SemEval-2023 Task 12: Low-Resource Language Text Classification via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。 AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文参考訳（メタデータ） (2023-05-04T07:28:45Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文参考訳（メタデータ） (2021-12-27T12:45:06Z)
Exploratory Arabic Offensive Language Dataset Analysis [0.0]
本稿では、アラブの攻撃的言語研究で使用されるリソースとデータセットに関する洞察を追加する。本研究の目的は,アラビア語攻撃言語の研究者が,その内容に基づいて適切なデータセットを選択することにある。
論文参考訳（メタデータ） (2021-01-20T23:45:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。