論文の概要: Basque and Spanish Counter Narrative Generation: Data Creation and Evaluation
- arxiv url: http://arxiv.org/abs/2403.09159v1
- Date: Thu, 14 Mar 2024 08:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:26:58.557825
- Title: Basque and Spanish Counter Narrative Generation: Data Creation and Evaluation
- Title(参考訳): バスクとスペインのカウンターナラティブジェネレーション:データ作成と評価
- Authors: Jaione Bengoetxea, Yi-Ling Chung, Marco Guerini, Rodrigo Agerri,
- Abstract要約: 我々は,機械翻訳(MT)と専門的な後編集によって開発されたCN生成のための新しいバスク・スペイン語データセットを提案する。
パラレルコーパス(英語版)であり、元々の英語のCONANに対しても、CNの多言語および多言語自動生成に関する新しい研究を行うことができる。
- 参考スコア(独自算出の注目度): 12.528286054814956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counter Narratives (CNs) are non-negative textual responses to Hate Speech (HS) aiming at defusing online hatred and mitigating its spreading across media. Despite the recent increase in HS content posted online, research on automatic CN generation has been relatively scarce and predominantly focused on English. In this paper, we present CONAN-EUS, a new Basque and Spanish dataset for CN generation developed by means of Machine Translation (MT) and professional post-edition. Being a parallel corpus, also with respect to the original English CONAN, it allows to perform novel research on multilingual and crosslingual automatic generation of CNs. Our experiments on CN generation with mT5, a multilingual encoder-decoder model, show that generation greatly benefits from training on post-edited data, as opposed to relying on silver MT data only. These results are confirmed by their correlation with a qualitative manual evaluation, demonstrating that manually revised training data remains crucial for the quality of the generated CNs. Furthermore, multilingual data augmentation improves results over monolingual settings for structurally similar languages such as English and Spanish, while being detrimental for Basque, a language isolate. Similar findings occur in zero-shot crosslingual evaluations, where model transfer (fine-tuning in English and generating in a different target language) outperforms fine-tuning mT5 on machine translated data for Spanish but not for Basque. This provides an interesting insight into the asymmetry in the multilinguality of generative models, a challenging topic which is still open to research.
- Abstract(参考訳): カウンターナラティブズ(Counter Narratives, CN)は、ヘイトスピーチ(Hate Speech, HS)に対する否定的な回答であり、オンラインの憎悪を否定し、メディアの拡散を緩和することを目的としている。
最近、オンラインに投稿されたHSコンテンツの増加にもかかわらず、自動CN生成の研究は比較的少なく、主に英語に焦点を当てている。
本稿では,機械翻訳(MT)と専門的な後編集によって開発されたCN生成のための新しいバスク・スペイン語データセットであるCONAN-EUSを提案する。
パラレルコーパスであり、もともとの英語のCONANに対しても、CNの多言語的および多言語的自動生成に関する新しい研究を行うことができる。
マルチリンガルエンコーダデコーダモデルであるmT5を用いたCN生成実験では,銀MTデータのみに依存するのではなく,後処理データによるトレーニングにより生成が大幅に向上することが示された。
これらの結果は定性的な手動評価と相関して確認され、手動で修正したトレーニングデータが生成したCNの品質に不可欠であることが証明された。
さらに、多言語データ拡張は、英語やスペイン語のような構造的に類似した言語に対する単言語設定よりも、結果を改善します。
同様に、ゼロショットのクロスリンガル評価では、モデル転送(英語で微調整し、異なるターゲット言語で生成する)は、スペイン語の機械翻訳データにおいて、バスク語ではなく、微調整のmT5よりも優れている。
これは生成モデルの多言語性における非対称性に関する興味深い洞察を与える。
関連論文リスト
- Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks [22.93790760274486]
ゼロショットの言語間知識伝達により、ある言語でタスクを微調整し、他の言語でタスクの予測を行う多言語事前学習言語モデルが可能になる。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。
論文 参考訳(メタデータ) (2024-02-19T16:43:57Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。
データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文 参考訳(メタデータ) (2022-05-30T10:31:08Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Using Pre-Trained Language Models for Producing Counter Narratives
Against Hate Speech: a Comparative Study [17.338923885534193]
本稿では,CN自動生成作業における事前学習言語モデルの利用に関する広範な研究を行う。
まず、CNを生成するのに最適な特定の言語モデル(またはLMのクラス)と特定の復号機構が存在するかどうかを比較検討する。
自動回帰モデルとデコードを組み合わせることが、最も有望であることを示している。
論文 参考訳(メタデータ) (2022-04-04T12:44:47Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language
Generation [4.874780144224057]
自然言語生成のための言語間移動は、比較的研究が進められている。
NLGの4つのタスク(テキスト要約、質問生成、ニュース見出し生成、イントラクタ生成)と3つの構文的に多様な言語について検討する。
並列あるいは擬似並列/バックトランスレートデータを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:08:01Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。