論文の概要: Transferring Knowledge via Neighborhood-Aware Optimal Transport for
Low-Resource Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2210.09340v1
- Date: Mon, 17 Oct 2022 18:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:20:33.548538
- Title: Transferring Knowledge via Neighborhood-Aware Optimal Transport for
Low-Resource Hate Speech Detection
- Title(参考訳): 低音源Hate音声検出のための隣り合わせの最適移動による知識伝達
- Authors: Tulika Bose, Irina Illina, Dominique Fohr
- Abstract要約: 最先端のディープラーニングベースのアプローチでは、トレーニングには大量のラベル付きリソースが必要です。
これにより、既存のラベル付きリソースから低リソースのヘイトスピーチコーパスに知識を転送する必要がある。
本研究では,資源豊富なコーパスから取得した近隣住民の相対的近さを柔軟にモデリングし,移動量の学習を可能にする新しい学習手法を提案する。
- 参考スコア(独自算出の注目度): 8.250374560598495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The concerning rise of hateful content on online platforms has increased the
attention towards automatic hate speech detection, commonly formulated as a
supervised classification task. State-of-the-art deep learning-based approaches
usually require a substantial amount of labeled resources for training.
However, annotating hate speech resources is expensive, time-consuming, and
often harmful to the annotators. This creates a pressing need to transfer
knowledge from the existing labeled resources to low-resource hate speech
corpora with the goal of improving system performance. For this,
neighborhood-based frameworks have been shown to be effective. However, they
have limited flexibility. In our paper, we propose a novel training strategy
that allows flexible modeling of the relative proximity of neighbors retrieved
from a resource-rich corpus to learn the amount of transfer. In particular, we
incorporate neighborhood information with Optimal Transport, which permits
exploiting the geometry of the data embedding space. By aligning the joint
embedding and label distributions of neighbors, we demonstrate substantial
improvements over strong baselines, in low-resource scenarios, on different
publicly available hate speech corpora.
- Abstract(参考訳): オンラインプラットフォーム上でのヘイトフルコンテンツの増加は、教師付き分類タスクとして一般的に定式化された自動ヘイトスピーチ検出への注目を高めている。
最先端のディープラーニングベースのアプローチは通常、トレーニングに相当量のラベル付きリソースを必要とする。
しかし、ヘイトスピーチリソースのアノテートは高価で時間がかかり、アノテーターにとって有害であることが多い。
これにより、既存のラベル付きリソースからの知識を低リソースのヘイトスピーチコーパスに転送し、システム性能を向上させる必要性が強まる。
このため、近隣のフレームワークが有効であることが示されている。
しかし、柔軟性は限られている。
本稿では,資源豊富なコーパスから取得した近傍の相対的近接を柔軟にモデル化し,転送量の学習を可能にする新しい学習戦略を提案する。
特に,データ埋め込み空間の幾何学を活用できる Optimal Transport に周辺情報を組み込む。
隣人の結合埋め込みとラベル分布を整合させることにより,低リソースシナリオにおいて,公に利用可能な異なるヘイトスピーチコーパス上で,強力なベースラインよりも大幅に改善することを示す。
関連論文リスト
- Source -Free Domain Adaptation for Speaker Verification in Data-Scarce Languages and Noisy Channels [0.0]
ドメイン適応はしばしば、非常に小さなターゲットデータセットとアクセス不能なソースデータによって妨げられる。
本稿では,データスカース言語における話者検証のための限られたターゲット音声データセットへのソースフリー領域適応手法について検討する。
論文 参考訳(メタデータ) (2024-06-09T17:27:20Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - A Unified Contrastive Transfer Framework with Propagation Structure for
Boosting Low-Resource Rumor Detection [11.201348902221257]
既存の噂検出アルゴリズムは 昨日のニュースで 有望な性能を見せています
十分なトレーニングデータや事前の専門家知識が欠如しているため、予期せぬ出来事に関する噂を見つけるのが苦手である。
本稿では,十分な情報源から得られた特徴を,少数のアノテーションで少ない資料に適応させることで,噂を検出するための一貫したコントラスト転送フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-04T03:13:03Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - Detect Rumors in Microblog Posts for Low-Resource Domains via
Adversarial Contrastive Learning [8.013665071332388]
本稿では,噂データから得られた特徴を低リソースデータに適応させることにより,噂を検出するための逆相反学習フレームワークを提案する。
本フレームワークは最先端の手法よりも優れた性能を実現し,早期に噂を検出する能力に優れる。
論文 参考訳(メタデータ) (2022-04-18T03:10:34Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。