論文の概要: Transfer Language Selection for Zero-Shot Cross-Lingual Abusive Language
Detection
- arxiv url: http://arxiv.org/abs/2206.00962v1
- Date: Thu, 2 Jun 2022 09:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:01:32.602211
- Title: Transfer Language Selection for Zero-Shot Cross-Lingual Abusive Language
Detection
- Title(参考訳): ゼロショット言語間乱用言語検出のための転送言語選択
- Authors: Juuso Eronen, Michal Ptaszynski, Fumito Masui, Masaki Arata, Gniewosz
Leliwa, Michal Wroczynski
- Abstract要約: 各言語に対するデータセットを作成する代わりに、ゼロショット乱用言語検出における言語間移動学習の有効性を実証する。
私たちのデータセットは、3つの言語ファミリーの7つの異なる言語から来ています。
- 参考スコア(独自算出の注目度): 2.2998722397348335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the selection of transfer languages for automatic abusive language
detection. Instead of preparing a dataset for every language, we demonstrate
the effectiveness of cross-lingual transfer learning for zero-shot abusive
language detection. This way we can use existing data from higher-resource
languages to build better detection systems for low-resource languages. Our
datasets are from seven different languages from three language families. We
measure the distance between the languages using several language similarity
measures, especially by quantifying the World Atlas of Language Structures. We
show that there is a correlation between linguistic similarity and classifier
performance. This discovery allows us to choose an optimal transfer language
for zero shot abusive language detection.
- Abstract(参考訳): 自動乱用言語検出のためのトランスファー言語の選択について検討する。
各言語用のデータセットを作成する代わりに,ゼロショット乱用言語検出のための言語間転送学習の有効性を示す。
これにより、高リソース言語の既存のデータを使用して、低リソース言語のより良い検出システムを構築することができます。
私たちのデータセットは、3つの言語ファミリーから7つの異なる言語からのものです。
我々は言語間の距離を複数の言語類似度尺度を用いて測定し、特に言語構造の世界アトラスを定量化する。
言語的類似性と分類器の性能には相関関係があることが示される。
この発見により、ゼロショット乱用言語検出のための最適な転送言語を選択できる。
関連論文リスト
- Linguistically-Informed Multilingual Instruction Tuning: Is There an Optimal Set of Languages to Tune? [0.0]
本研究では,言語情報を用いた指導指導のための言語選択手法を提案する。
簡単なアルゴリズムを用いて、多様な言語を選択し、様々なベンチマークやオープンエンドの質問でそれらの有効性をテストする。
その結果、この慎重な選択は、言語をランダムに選択するよりも、より優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-10-10T10:57:24Z) - CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - Measuring Cross-lingual Transfer in Bytes [9.011910726620538]
多様な言語からのモデルが、言語横断的な設定で対象言語と類似して動作することを示す。
また,この移行が言語汚染や言語近接と関係がないという証拠も発見された。
我々の実験は、事前学習中に学習した言語に依存しない表現の量を測定する新しい可能性を開いた。
論文 参考訳(メタデータ) (2024-04-12T01:44:46Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Zero-shot cross-lingual transfer language selection using linguistic
similarity [3.029434408969759]
本研究では,異なる自然言語処理タスクを対象とした移動言語の選択について検討する。
この研究のために、私たちは3つの言語ファミリーから8つの異なる言語からのデータセットを使用しました。
論文 参考訳(メタデータ) (2023-01-31T15:56:40Z) - Multilingual transfer of acoustic word embeddings improves when training
on languages related to the target zero-resource language [32.170748231414365]
たった一つの関連言語でトレーニングを行うことで、最大の利益が得られます。
また、関係のない言語からのデータを追加することは、一般的にパフォーマンスを損なわないこともわかりました。
論文 参考訳(メタデータ) (2021-06-24T08:37:05Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。