Fugu-MT 論文翻訳(概要): A simple language-agnostic yet very strong baseline system for hate speech and offensive content identification

論文の概要: A simple language-agnostic yet very strong baseline system for hate speech and offensive content identification

arxiv url: http://arxiv.org/abs/2202.02511v1
Date: Sat, 5 Feb 2022 08:09:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-11 11:24:25.664732
Title: A simple language-agnostic yet very strong baseline system for hate speech and offensive content identification
Title（参考訳）: ヘイトスピーチと攻撃的コンテンツ識別のための単純言語非依存かつ非常に強力なベースラインシステム
Authors: Yves Bestgen
Abstract要約: 古典的な教師付きアルゴリズムに基づくシステムは、文字n-gramのみを供給し、したがって完全に言語に依存しないシステムを提案する。英語では中程度のパフォーマンスに達しており、ディープラーニングアプローチの開発が容易な言語である。これらの言語の3つのタスクでパフォーマンスが平均化され、多くのディープラーニングアプローチを上回ります。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For automatically identifying hate speech and offensive content in tweets, a system based on a classical supervised algorithm only fed with character n-grams, and thus completely language-agnostic, is proposed by the SATLab team. After its optimization in terms of the feature weighting and the classifier parameters, it reached, in the multilingual HASOC 2021 challenge, a medium performance level in English, the language for which it is easy to develop deep learning approaches relying on many external linguistic resources, but a far better level for the two less resourced language, Hindi and Marathi. It ends even first when performances are averaged over the three tasks in these languages, outperforming many deep learning approaches. These performances suggest that it is an interesting reference level to evaluate the benefits of using more complex approaches such as deep learning or taking into account complementary resources.
Abstract（参考訳）: ツイート中のヘイトスピーチと攻撃的コンテンツを自動的に識別するために、従来の教師付きアルゴリズムに基づくシステムは文字n-gramのみを供給し、したがって完全に言語に依存しない。機能の重み付けと分類パラメータの最適化によって、多言語hasoc 2021チャレンジでは、英語の中間パフォーマンスレベルである、多くの外部言語リソースに依存するディープラーニングアプローチの開発が容易な言語、ヒンディー語とマラティ語という2つの少ない言語に対して、はるかに優れたレベルに達した。パフォーマンスがこれらの言語で3つのタスクに平均され、多くのディープラーニングアプローチを上回って初めて終わる。これらのパフォーマンスは、ディープラーニングのようなより複雑なアプローチや補完的リソースを考慮に入れることのメリットを評価するのに、興味深い参照レベルであることを示唆している。

関連論文リスト

Speaker Diarization for Low-Resource Languages Through Wav2vec Fine-Tuning [4.396936958546459]
我々は、専用のクルド語コーパス上で、Wav2Vec 2.0の自己教師型学習モデルを訓練する。我々は他の言語から学んだ多言語表現に適応し、クルド語の音声的・音響的特徴を捉える。結果は、他の未研究言語で効果的なダイアリゼーションシステムを構築するための基盤を確立する。
論文参考訳（メタデータ） (2025-04-23T10:45:59Z)
How does a Multilingual LM Handle Multiple Languages? [0.0]
本研究では,多言語理解,意味表現,言語間知識伝達の能力について批判的に検討する。コサイン類似性を用いた一貫性のための多言語単語埋め込みの分析により意味的類似性を評価する。 BLOOM-1.7B と Qwen2 を Named Entity Recognition と文類似性タスクを通して調べ、それらの言語構造を理解する。
論文参考訳（メタデータ） (2025-02-06T18:08:14Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文参考訳（メタデータ） (2024-04-24T08:52:40Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文参考訳（メタデータ） (2021-11-02T01:55:17Z)
Cross-lingual hate speech detection based on multilingual domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文参考訳（メタデータ） (2021-04-30T02:24:50Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Gamified Crowdsourcing for Idiom Corpora Construction [0.0]
本稿では,慣用的な表現のための言語学習教材を収集するための,ゲーミフィケーションなクラウドソーシング手法を紹介する。メッセージングボットは、互いに競合するネイティブスピーカーのための非同期マルチプレイヤーゲームとして設計されている。このアプローチは、異なる自然言語に対するイディオムコーパスの構築を高速化する可能性があることが示されている。
論文参考訳（メタデータ） (2021-02-01T14:44:43Z)
Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition [58.849768879796905]
エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークであるAdapt-and-Adjust (A2)を提案する。 A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。
論文参考訳（メタデータ） (2020-12-03T03:46:16Z)
LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文参考訳（メタデータ） (2020-03-13T22:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。