論文の概要: Cross-lingual Offensive Language Detection: A Systematic Review of
Datasets, Transfer Approaches and Challenges
- arxiv url: http://arxiv.org/abs/2401.09244v1
- Date: Wed, 17 Jan 2024 14:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:35:59.397759
- Title: Cross-lingual Offensive Language Detection: A Systematic Review of
Datasets, Transfer Approaches and Challenges
- Title(参考訳): 言語間攻撃的言語検出:データセット,移動アプローチ,課題の体系的レビュー
- Authors: Aiqi Jiang, Arkaitz Zubiaga
- Abstract要約: 本調査は,ソーシャルメディアにおける攻撃的言語検出におけるクロスリンガル・トランスファー・ラーニング手法の体系的,包括的調査である。
我々の研究は、この領域における言語横断シナリオにのみ焦点をあてる最初の全体論的な概要である。
- 参考スコア(独自算出の注目度): 10.079109184645478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing prevalence and rapid evolution of offensive language in social
media amplify the complexities of detection, particularly highlighting the
challenges in identifying such content across diverse languages. This survey
presents a systematic and comprehensive exploration of Cross-Lingual Transfer
Learning (CLTL) techniques in offensive language detection in social media. Our
study stands as the first holistic overview to focus exclusively on the
cross-lingual scenario in this domain. We analyse 67 relevant papers and
categorise these studies across various dimensions, including the
characteristics of multilingual datasets used, the cross-lingual resources
employed, and the specific CLTL strategies implemented. According to "what to
transfer", we also summarise three main CLTL transfer approaches: instance,
feature, and parameter transfer. Additionally, we shed light on the current
challenges and future research opportunities in this field. Furthermore, we
have made our survey resources available online, including two comprehensive
tables that provide accessible references to the multilingual datasets and CLTL
methods used in the reviewed literature.
- Abstract(参考訳): ソーシャルメディアにおける攻撃的言語の普及と急速な進化は、検出の複雑さを増幅し、特に様々な言語にまたがるコンテンツを特定することの難しさを強調している。
本調査は,ソーシャルメディアにおける攻撃的言語検出におけるCLTL(Cross-Lingual Transfer Learning)手法の体系的・包括的探索である。
我々の研究は、この領域における言語横断シナリオにのみ焦点をあてる最初の総合的な概要である。
67の関連論文を分析し,多言語データセットの特性,使用する言語間資源,実装されたcltl戦略など,様々な分野にわたる研究を分類した。
転送方法」によれば、CLTL転送の3つの主要なアプローチである、例、特徴、パラメータ転送についても要約する。
さらに、この分野における現在の課題と今後の研究機会についても触れた。
さらに,多言語データセットへの参照可能な2つの包括的なテーブルや,レビュー文献で使用されるcltlメソッドなど,調査リソースをオンラインで公開しました。
関連論文リスト
- A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Ukrainian Texts Classification: Exploration of Cross-lingual Knowledge Transfer Approaches [11.508759658889382]
典型的なテキスト分類タスクにはウクライナのコーパスが欠如している。
手動データキュレーションを回避するために,言語間知識伝達手法について検討する。
3つのテキスト分類タスクに対するアプローチを検証した。
論文 参考訳(メタデータ) (2024-04-02T15:37:09Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Measuring Catastrophic Forgetting in Cross-Lingual Transfer Paradigms: Exploring Tuning Strategies [4.118037156777793]
言語間移動は、少ないリソースの言語でタスクを解くための有望なテクニックである。
大規模言語モデルに対する2つの微調整アプローチとゼロショットおよびフルショット学習アプローチを比較した。
論文 参考訳(メタデータ) (2023-09-12T09:37:08Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Transfer Learning for Multi-lingual Tasks -- a Survey [11.596820548674266]
自然言語処理(NLP)におけるクロス言語の内容と多言語主義はホットトピックである。
本稿では,多言語タスクにおける伝達学習技術に着目し,既存の文献の概要を概観する。
論文 参考訳(メタデータ) (2021-08-28T20:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。