論文の概要: Multilingual Argument Mining: Datasets and Analysis
- arxiv url: http://arxiv.org/abs/2010.06432v1
- Date: Tue, 13 Oct 2020 14:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 22:27:29.808432
- Title: Multilingual Argument Mining: Datasets and Analysis
- Title(参考訳): マルチリンガルargument Mining:データセットと分析
- Authors: Orith Toledo-Ronen, Matan Orbach, Yonatan Bilu, Artem Spector, Noam
Slonim
- Abstract要約: 非英語言語における引数マイニングタスクに対処するために,多言語BERTモデルを用いた移動学習の可能性を検討する。
このような手法は,議論の姿勢の分類や証拠の検出に適しているが,議論の質を評価するには適していないことを示す。
複数の言語で10k以上の引数を持つ人為的なデータセットと、英語データセットの機械翻訳を提供する。
- 参考スコア(独自算出の注目度): 9.117984896907782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing interest in argument mining and computational argumentation
brings with it a plethora of Natural Language Understanding (NLU) tasks and
corresponding datasets. However, as with many other NLU tasks, the dominant
language is English, with resources in other languages being few and far
between. In this work, we explore the potential of transfer learning using the
multilingual BERT model to address argument mining tasks in non-English
languages, based on English datasets and the use of machine translation. We
show that such methods are well suited for classifying the stance of arguments
and detecting evidence, but less so for assessing the quality of arguments,
presumably because quality is harder to preserve under translation. In
addition, focusing on the translate-train approach, we show how the choice of
languages for translation, and the relations among them, affect the accuracy of
the resultant model. Finally, to facilitate evaluation of transfer learning on
argument mining tasks, we provide a human-generated dataset with more than 10k
arguments in multiple languages, as well as machine translation of the English
datasets.
- Abstract(参考訳): 議論のマイニングと計算の議論に対する関心が高まり、自然言語理解(nlu)タスクと対応するデータセットが数多くもたらされた。
しかし、他の多くのNLUタスクと同様に、支配的な言語は英語であり、他の言語のリソースは少ない。
本研究では,多言語BERTモデルを用いた移動学習の可能性を探り,英語データセットと機械翻訳を用いた非英語言語における議論マイニング課題に対処する。
このような手法は議論の姿勢の分類や証拠の発見に適しているが,おそらくは翻訳下での保存が困難であるため,議論の質を評価するには適していないと考えられる。
さらに,翻訳-学習アプローチに着目し,翻訳言語の選択とそれらの関係が,結果モデルの精度にどのように影響するかを示す。
最後に、議論マイニングタスクにおける伝達学習の評価を容易にするために、複数の言語で10k以上の引数を持つ人間生成データセットと、英語データセットの機械翻訳を提供する。
関連論文リスト
- GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer
in Low-Resource Dialog Generation [21.973937517854935]
複数の言語で高品質なチャットボットを開発するためには、言語間移動が重要である。
本研究は,機械翻訳(MT)の活用に有用かどうかを考察する。
英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-05-21T15:07:04Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language
Generation [4.874780144224057]
自然言語生成のための言語間移動は、比較的研究が進められている。
NLGの4つのタスク(テキスト要約、質問生成、ニュース見出し生成、イントラクタ生成)と3つの構文的に多様な言語について検討する。
並列あるいは擬似並列/バックトランスレートデータを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:08:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Transfer learning and subword sampling for asymmetric-resource
one-to-many neural translation [14.116412358534442]
低リソース言語のためのニューラルマシン翻訳を改善する方法について概説する。
人工的に制限された3つの翻訳タスクと1つの現実世界タスクでテストが行われる。
実験は、特にスケジュールされたマルチタスク学習、denoising autoencoder、サブワードサンプリングに肯定的な効果を示す。
論文 参考訳(メタデータ) (2020-04-08T14:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。