論文の概要: Transfer Language Selection for Zero-Shot Cross-Lingual Abusive Language
Detection
- arxiv url: http://arxiv.org/abs/2206.00962v1
- Date: Thu, 2 Jun 2022 09:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:01:32.602211
- Title: Transfer Language Selection for Zero-Shot Cross-Lingual Abusive Language
Detection
- Title(参考訳): ゼロショット言語間乱用言語検出のための転送言語選択
- Authors: Juuso Eronen, Michal Ptaszynski, Fumito Masui, Masaki Arata, Gniewosz
Leliwa, Michal Wroczynski
- Abstract要約: 各言語に対するデータセットを作成する代わりに、ゼロショット乱用言語検出における言語間移動学習の有効性を実証する。
私たちのデータセットは、3つの言語ファミリーの7つの異なる言語から来ています。
- 参考スコア(独自算出の注目度): 2.2998722397348335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the selection of transfer languages for automatic abusive language
detection. Instead of preparing a dataset for every language, we demonstrate
the effectiveness of cross-lingual transfer learning for zero-shot abusive
language detection. This way we can use existing data from higher-resource
languages to build better detection systems for low-resource languages. Our
datasets are from seven different languages from three language families. We
measure the distance between the languages using several language similarity
measures, especially by quantifying the World Atlas of Language Structures. We
show that there is a correlation between linguistic similarity and classifier
performance. This discovery allows us to choose an optimal transfer language
for zero shot abusive language detection.
- Abstract(参考訳): 自動乱用言語検出のためのトランスファー言語の選択について検討する。
各言語用のデータセットを作成する代わりに,ゼロショット乱用言語検出のための言語間転送学習の有効性を示す。
これにより、高リソース言語の既存のデータを使用して、低リソース言語のより良い検出システムを構築することができます。
私たちのデータセットは、3つの言語ファミリーから7つの異なる言語からのものです。
我々は言語間の距離を複数の言語類似度尺度を用いて測定し、特に言語構造の世界アトラスを定量化する。
言語的類似性と分類器の性能には相関関係があることが示される。
この発見により、ゼロショット乱用言語検出のための最適な転送言語を選択できる。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Zero-shot cross-lingual transfer language selection using linguistic
similarity [3.029434408969759]
本研究では,異なる自然言語処理タスクを対象とした移動言語の選択について検討する。
この研究のために、私たちは3つの言語ファミリーから8つの異なる言語からのデータセットを使用しました。
論文 参考訳(メタデータ) (2023-01-31T15:56:40Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Multilingual transfer of acoustic word embeddings improves when training
on languages related to the target zero-resource language [32.170748231414365]
たった一つの関連言語でトレーニングを行うことで、最大の利益が得られます。
また、関係のない言語からのデータを追加することは、一般的にパフォーマンスを損なわないこともわかりました。
論文 参考訳(メタデータ) (2021-06-24T08:37:05Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。