論文の概要: Multilingual Event Linking to Wikidata
- arxiv url: http://arxiv.org/abs/2204.06535v1
- Date: Wed, 13 Apr 2022 17:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 13:05:17.599319
- Title: Multilingual Event Linking to Wikidata
- Title(参考訳): Wikidataへの多言語イベントリンク
- Authors: Adithya Pratapa, Rishubh Gupta, Teruko Mitamura
- Abstract要約: イベントリンクタスクの2つの変種を提案する: 1) イベント記述が言及と同じ言語からのものであるマルチリンガル、2) イベント記述がすべて英語で書かれているクロスリンガル。
このタスクのために大規模なデータセットを自動的にコンパイルし、Wikidataから10.9K以上のイベントを参照する44言語にわたる1.8Mの言及を含む。
- 参考スコア(独自算出の注目度): 5.726712522440283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a task of multilingual linking of events to a knowledge base. We
automatically compile a large-scale dataset for this task, comprising of 1.8M
mentions across 44 languages referring to over 10.9K events from Wikidata. We
propose two variants of the event linking task: 1) multilingual, where event
descriptions are from the same language as the mention, and 2) crosslingual,
where all event descriptions are in English. On the two proposed tasks, we
compare multiple event linking systems including BM25+ (Lv and Zhai, 2011) and
multilingual adaptations of the biencoder and crossencoder architectures from
BLINK (Wu et al., 2020). In our experiments on the two task variants, we find
both biencoder and crossencoder models significantly outperform the BM25+
baseline. Our results also indicate that the crosslingual task is in general
more challenging than the multilingual task. To test the out-of-domain
generalization of the proposed linking systems, we additionally create a
Wikinews-based evaluation set. We present qualitative analysis highlighting
various aspects captured by the proposed dataset, including the need for
temporal reasoning over context and tackling diverse event descriptions across
languages.
- Abstract(参考訳): 本稿では,イベントを知識ベースに多言語リンクするタスクを提案する。
このタスクのために大規模なデータセットを自動的にコンパイルし、Wikidataから10.9K以上のイベントを参照する44言語にわたる1.8Mの言及を含む。
イベントリンクタスクの2つのバリエーションを提案する。
1)マルチ言語で、イベント記述は言及と同じ言語から作成され、
2)すべてのイベント記述が英語であるクロスリンガル。
提案課題では,BM25+ (Lv, Zhai, 2011) を含む複数のイベントリンクシステムと,BLINK (Wu et al., 2020) のバイエンコーダアーキテクチャとクロスエンコーダアーキテクチャの多言語適応を比較した。
本実験では,バイエンコーダモデルとクロスエンコーダモデルの両方がBM25+のベースラインを大幅に上回っていることがわかった。
また,クロスランガルタスクは多言語タスクよりも一般に難しいことが示唆された。
提案するリンクシステムのドメイン外一般化をテストするために,wikinewsベースの評価セットも作成する。
提案するデータセットでは,文脈に対する時間的推論の必要性や,言語間での多様なイベント記述に対処する必要性など,さまざまな側面について定性的な分析を行う。
関連論文リスト
- Event Extraction in Basque: Typologically motivated Cross-Lingual Transfer-Learning Analysis [18.25948580496853]
低リソース言語におけるイベント抽出では,言語間移動学習が広く用いられている。
本稿では,ソース言語とターゲット言語との類型的類似性が,言語間移動の性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-09T15:35:41Z) - CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task
Information Retrieval [5.97515243922116]
本稿では,多言語多タスク情報検索におけるMRL2023共有タスクのためのチャールズ大学システムを提案する。
共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答のためのシステムを開発することである。
両方のサブタスクに対する私たちのソリューションは、翻訳テストのアプローチに依存しています。
論文 参考訳(メタデータ) (2023-10-25T10:22:49Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。
目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。
多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文 参考訳(メタデータ) (2021-04-04T08:49:28Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。