論文の概要: The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification
- arxiv url: http://arxiv.org/abs/2010.09381v1
- Date: Mon, 19 Oct 2020 11:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:50:28.803643
- Title: The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification
- Title(参考訳): 言語間関係分類のためのRELXデータセットと多言語ブランクのマッチング
- Authors: Abdullatif K\"oksal, Arzucan \"Ozg\"ur
- Abstract要約: 関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relation classification is one of the key topics in information extraction,
which can be used to construct knowledge bases or to provide useful information
for question answering. Current approaches for relation classification are
mainly focused on the English language and require lots of training data with
human annotations. Creating and annotating a large amount of training data for
low-resource languages is impractical and expensive. To overcome this issue, we
propose two cross-lingual relation classification models: a baseline model
based on Multilingual BERT and a new multilingual pretraining setup, which
significantly improves the baseline with distant supervision. For evaluation,
we introduce a new public benchmark dataset for cross-lingual relation
classification in English, French, German, Spanish, and Turkish, called RELX.
We also provide the RELX-Distant dataset, which includes hundreds of thousands
of sentences with relations from Wikipedia and Wikidata collected by distant
supervision for these languages. Our code and data are available at:
https://github.com/boun-tabi/RELX
- Abstract(参考訳): 関係分類は情報抽出における重要な話題の1つであり、知識ベースの構築や質問応答に有用な情報の提供に利用できる。
関係分類の現在のアプローチは、主に英語に焦点を当てており、人間のアノテーションによる多くのトレーニングデータを必要とする。
低リソース言語のための大量のトレーニングデータの作成とアノテーションは非現実的で高価です。
この問題を克服するために,多言語bertに基づくベースラインモデルと,遠隔監視によりベースラインを大幅に改善する新しい多言語事前学習設定という2つの言語間関係分類モデルを提案する。
評価のために,英語,フランス語,ドイツ語,スペイン語,トルコ語の言語間関係分類のための新しいベンチマークデータセットrelxを導入する。
RELX-Distantデータセットも提供しており、ウィキペディアやウィキデータから集めた数十万の文が、これらの言語を遠方の監督によって収集されている。
私たちのコードとデータは、https://github.com/boun-tabi/RELXで利用可能です。
関連論文リスト
- $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs [27.574815708395203]
CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T11:40:36Z) - A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:40:46Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - Multilingual Compositional Wikidata Questions [9.602430657819564]
ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
論文 参考訳(メタデータ) (2021-08-07T19:40:38Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。