論文の概要: DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction
- arxiv url: http://arxiv.org/abs/2104.08655v1
- Date: Sat, 17 Apr 2021 22:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:37:34.206872
- Title: DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction
- Title(参考訳): DiS-ReX:遠隔監視関係抽出のための多言語データセット
- Authors: Abhyuday Bhartiya, Kartikeya Badola, Mausam
- Abstract要約: これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
- 参考スコア(独自算出の注目度): 15.649929244635269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distant supervision (DS) is a well established technique for creating
large-scale datasets for relation extraction (RE) without using human
annotations. However, research in DS-RE has been mostly limited to the English
language. Constraining RE to a single language inhibits utilization of large
amounts of data in other languages which could allow extraction of more diverse
facts. Very recently, a dataset for multilingual DS-RE has been released.
However, our analysis reveals that the proposed dataset exhibits unrealistic
characteristics such as 1) lack of sentences that do not express any relation,
and 2) all sentences for a given entity pair expressing exactly one relation.
We show that these characteristics lead to a gross overestimation of the model
performance. In response, we propose a new dataset, DiS-ReX, which alleviates
these issues. Our dataset has more than 1.5 million sentences, spanning across
4 languages with 36 relation classes + 1 no relation (NA) class. We also modify
the widely used bag attention models by encoding sentences using mBERT and
provide the first benchmark results on multilingual DS-RE. Unlike the competing
dataset, we show that our dataset is challenging and leaves enough room for
future research to take place in this field.
- Abstract(参考訳): 遠隔監視(DS)は、人間のアノテーションを使わずに、関係抽出(RE)のための大規模データセットを作成するための確立された手法である。
しかし、DS-REの研究はほとんど英語に限られている。
単一言語へのreの制約は、より多様な事実の抽出を可能にする他の言語における大量のデータの利用を阻害する。
最近、多言語DS-RE用のデータセットがリリースされた。
しかし,本分析の結果から,1)関係を表現しない文の欠如,2)関係を正確に1つだけ表現するエンティティペアのすべての文など,非現実的な特徴が示された。
これらの特性がモデル性能の過大評価につながることを示す。
そこで我々は,これらの問題を緩和する新しいデータセットDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
競合するデータセットとは異なり、我々のデータセットは挑戦的であり、この分野で将来の研究を行う余地を残している。
関連論文リスト
- MASSIVE Multilingual Abstract Meaning Representation: A Dataset and Baselines for Hallucination Detection [3.6811136816751513]
84,000以上のテキスト・ツー・グラフアノテーションを持つデータセットであるMASSIVE-AMRを紹介する。
AMRグラフは、50以上の言語にマッピングされた1,685の情報検索発話を示す。
その結果、構造化解析のためのLLMを用いた永続的な問題に光を当てた。
論文 参考訳(メタデータ) (2024-05-29T17:17:22Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z) - The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification [0.0]
関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-10-19T11:08:16Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。