論文の概要: Dataset and Baseline System for Multi-lingual Extraction and
Normalization of Temporal and Numerical Expressions
- arxiv url: http://arxiv.org/abs/2303.18103v1
- Date: Fri, 31 Mar 2023 14:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:35:33.413644
- Title: Dataset and Baseline System for Multi-lingual Extraction and
Normalization of Temporal and Numerical Expressions
- Title(参考訳): 時間・数値表現の多言語抽出と正規化のためのデータセットとベースラインシステム
- Authors: Sanxing Chen, Yongqiang Chen, B\"orje F. Karlsson
- Abstract要約: 時間的および数値的な表現理解は多くの下流自然言語処理(NLP)および情報検索(IR)タスクにおいて非常に重要である。
ここでは,14言語にまたがる時間的および数値的表現の多言語評価データセットNTXについて述べる。
- 参考スコア(独自算出の注目度): 1.1709515977932758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal and numerical expression understanding is of great importance in
many downstream Natural Language Processing (NLP) and Information Retrieval
(IR) tasks. However, much previous work covers only a few sub-types and focuses
only on entity extraction, which severely limits the usability of identified
mentions. In order for such entities to be useful in downstream scenarios,
coverage and granularity of sub-types are important; and, even more so,
providing resolution into concrete values that can be manipulated. Furthermore,
most previous work addresses only a handful of languages. Here we describe a
multi-lingual evaluation dataset - NTX - covering diverse temporal and
numerical expressions across 14 languages and covering extraction,
normalization, and resolution. Along with the dataset we provide a robust
rule-based system as a strong baseline for comparisons against other models to
be evaluated in this dataset. Data and code are available at
\url{https://aka.ms/NTX}.
- Abstract(参考訳): ダウンストリーム自然言語処理(nlp)や情報検索(ir)タスクでは,時間的および数値的理解が非常に重要である。
しかしながら、以前の多くの作業は、いくつかのサブタイプのみをカバーし、エンティティ抽出のみに焦点を当てており、特定された参照の使用性が著しく制限されている。
このようなエンティティが下流のシナリオで有用になるためには、サブタイプのカバレッジと粒度が重要です。
さらに、ほとんどの以前の作業は、ほんの一握りの言語しか扱っていない。
ここでは,14言語にまたがる多様な時間的および数値的表現をカバーする多言語評価データセットNTXについて述べる。
データセットとともに、このデータセットで評価される他のモデルと比較するための強力なベースラインとして、堅牢なルールベースのシステムを提供します。
データとコードは \url{https://aka.ms/NTX} で入手できる。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets [1.1647644386277962]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文 参考訳(メタデータ) (2024-03-06T18:14:22Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction [15.649929244635269]
これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2021-04-17T22:44:38Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。