論文の概要: A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification
- arxiv url: http://arxiv.org/abs/2110.09570v1
- Date: Mon, 18 Oct 2021 18:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:51:17.708853
- Title: A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification
- Title(参考訳): 低資源多言語関係分類のためのデータブートストラップ法
- Authors: Arijit Nag, Bidisha Samanta, Animesh Mukherjee, Niloy Ganguly, Soumen
Chakrabarti
- Abstract要約: IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 38.83366564843953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relation classification (sometimes called 'extraction') requires trustworthy
datasets for fine-tuning large language models, as well as for evaluation. Data
collection is challenging for Indian languages, because they are syntactically
and morphologically diverse, as well as different from resource-rich languages
like English. Despite recent interest in deep generative models for Indian
languages, relation classification is still not well served by public data
sets. In response, we present IndoRE, a dataset with 21K entity and relation
tagged gold sentences in three Indian languages, plus English. We start with a
multilingual BERT (mBERT) based system that captures entity span positions and
type information and provides competitive monolingual relation classification.
Using this system, we explore and compare transfer mechanisms between
languages. In particular, we study the accuracy efficiency tradeoff between
expensive gold instances vs. translated and aligned 'silver' instances. We
release the dataset for future research.
- Abstract(参考訳): 関係分類(しばしば「抽出」と呼ばれる)は、微調整された大きな言語モデルや評価のために信頼できるデータセットを必要とする。
インドの言語では、構文上、形態上は多様であり、英語のようなリソース豊富な言語とは異なるため、データ収集は困難である。
インド語の深い生成モデルに対する近年の関心にもかかわらず、関係分類は依然として公開データセットではあまり役に立たない。
IndoREは3つのインド語と英語で、21Kエンティティと関係付けされた金の文をタグ付けしたデータセットである。
マルチリンガルBERT (mBERT) ベースのシステムからスタートし、エンティティのスパン位置と型情報をキャプチャし、競合するモノリンガル関係の分類を提供する。
本システムを用いて,言語間の伝達機構を探索・比較する。
特に,高価な金インスタンスと翻訳された'シルバー'インスタンスの精度のトレードオフについて検討した。
将来の研究のためのデータセットをリリースします。
関連論文リスト
- GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Evaluating Inter-Bilingual Semantic Parsing for Indian Languages [9.838755823660147]
本研究では,11の異なるインド言語を対象とした言語間セマンティック解析データセットIE-SEMPARSEを提案する。
本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。
論文 参考訳(メタデータ) (2023-04-25T17:24:32Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification [0.0]
関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-10-19T11:08:16Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。