論文の概要: Rumour Detection via Zero-shot Cross-lingual Transfer Learning
- arxiv url: http://arxiv.org/abs/2109.12773v1
- Date: Mon, 27 Sep 2021 03:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:35:37.208839
- Title: Rumour Detection via Zero-shot Cross-lingual Transfer Learning
- Title(参考訳): ゼロショット言語間伝達学習によるうわさ検出
- Authors: Lin Tian, Xiuzhen Zhang and Jey Han Lau
- Abstract要約: ソーシャルメディアのほとんどの噂検出モデルは、ある特定の言語(主に英語)のために設計されている。
Twitterには40以上の言語があり、ほとんどの言語には噂検出モデルを構築するための注釈付きリソースが欠けている。
本稿では,ソース言語のために訓練された噂検出モデルを他のターゲット言語に適応できるゼロショット言語間移動学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.76581661124027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most rumour detection models for social media are designed for one specific
language (mostly English). There are over 40 languages on Twitter and most
languages lack annotated resources to build rumour detection models. In this
paper we propose a zero-shot cross-lingual transfer learning framework that can
adapt a rumour detection model trained for a source language to another target
language. Our framework utilises pretrained multilingual language models (e.g.\
multilingual BERT) and a self-training loop to iteratively bootstrap the
creation of ''silver labels'' in the target language to adapt the model from
the source language to the target language. We evaluate our methodology on
English and Chinese rumour datasets and demonstrate that our model
substantially outperforms competitive benchmarks in both source and target
language rumour detection.
- Abstract(参考訳): ソーシャルメディアのほとんどの噂検出モデルは、特定の言語(主に英語)のために設計されている。
Twitterには40以上の言語があり、ほとんどの言語には噂検出モデルを構築するための注釈付きリソースが欠けている。
本稿では,ソース言語のために訓練された噂検出モデルを他のターゲット言語に適応できるゼロショット言語間移動学習フレームワークを提案する。
本フレームワークは,事前学習された多言語モデル(例えば,多言語bert)と自己学習ループを用いて,対象言語における'シルバーラベル'の生成を反復的にブートストラップし,ソース言語から対象言語にモデルを適応させる。
提案手法を英語と中国語の噂データセットで評価し,本モデルがソースとターゲット言語の両方の噂検出における競合ベンチマークを実質的に上回っていることを示す。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - DA-Net: A Disentangled and Adaptive Network for Multi-Source
Cross-Lingual Transfer Learning [11.78085199896157]
マルチソースの言語間変換学習は、複数のラベル付けされたソース言語から、言語シフトの下でラベル付けされていないターゲット言語へのタスク知識の転送を扱う。
本稿では,これらの課題に対処する分散適応ネットワーク(DA-Net)を提案する。
論文 参考訳(メタデータ) (2024-03-07T02:30:46Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - Zero-shot Cross-lingual Transfer is Under-specified Optimization [49.3779328255767]
ソース言語単言語モデルとソース+ターゲットバイリンガルモデルとの間の線形補間モデルは、等しく低いソース言語一般化誤差を持つことを示す。
また、ゼロショット解は対象言語誤り一般化曲面の非平坦領域にあり、高い分散を引き起こすことを示した。
論文 参考訳(メタデータ) (2022-07-12T16:49:28Z) - Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.360667403003745]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。
人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。
ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文 参考訳(メタデータ) (2021-06-30T16:05:57Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。