論文の概要: Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation
- arxiv url: http://arxiv.org/abs/2601.09648v1
- Date: Wed, 14 Jan 2026 17:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.486115
- Title: Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation
- Title(参考訳): 銀標準データを用いたハイブリッドルールとニューラルネットワークに基づくセマンティックタガーの作成:多言語セマンティックアノテーションのためのPyMUSASフレームワーク
- Authors: Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang,
- Abstract要約: 5つの異なる言語を用いたルールベースシステムにおいて,最も大きなセマンティックタグ付け評価を行う。
単言語モデルと多言語モデルの両方で、単言語モデルと多言語モデルを比較し、評価する。
トレーニングされたデータ、中国の評価データセット、そしてすべてのコードがオープンリソースとしてリリースされた。
- 参考スコア(独自算出の注目度): 2.570766532236233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word Sense Disambiguation (WSD) has been widely evaluated using the semantic frameworks of WordNet, BabelNet, and the Oxford Dictionary of English. However, for the UCREL Semantic Analysis System (USAS) framework, no open extensive evaluation has been performed beyond lexical coverage or single language evaluation. In this work, we perform the largest semantic tagging evaluation of the rule based system that uses the lexical resources in the USAS framework covering five different languages using four existing datasets and one novel Chinese dataset. We create a new silver labelled English dataset, to overcome the lack of manually tagged training data, that we train and evaluate various mono and multilingual neural models in both mono and cross-lingual evaluation setups with comparisons to their rule based counterparts, and show how a rule based system can be enhanced with a neural network model. The resulting neural network models, including the data they were trained on, the Chinese evaluation dataset, and all of the code have been released as open resources.
- Abstract(参考訳): Word Sense Disambiguation (WSD)は、WordNet、BabelNet、オックスフォード英語辞典のセマンティックフレームワークを用いて広く評価されている。
しかし, UCREL Semantic Analysis System (USAS) フレームワークでは, 語彙カバレッジや単一言語評価以外にも, 広範な評価は行われていない。
本研究では,既存の4つのデータセットと1つの中国語データセットを用いて,5つの言語をカバーするUSASフレームワークの語彙資源を用いたルールベースシステムにおいて,最も大きなセマンティックタグ付け評価を行う。
我々は、手動でタグ付けされたトレーニングデータの欠如を克服するために、新しい銀のラベル付き英語データセットを作成し、モノおよびクロスランガル評価設定の様々なモノおよびマルチランガルニューラルネットワークモデルを、ルールベースのデータセットと比較してトレーニングし、ニューラルネットワークモデルでルールベースのシステムをどのように拡張できるかを示す。
トレーニングされたデータ、中国の評価データセット、そしてすべてのコードがオープンリソースとしてリリースされた。
関連論文リスト
- BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。
大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。
我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-11-13T14:12:44Z) - Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning [5.5119571570277826]
言語間単語アライメントは、自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
本稿では,BiLSTMに基づくエンコーダデコーダフレームワークにコントラスト学習を取り入れることを提案する。
論文 参考訳(メタデータ) (2024-07-06T11:56:41Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Graph Neural Network Enhanced Language Models for Efficient Multilingual
Text Classification [8.147244878591014]
本稿では,モノ,クロス,マルチ言語シナリオ下で動作可能な多言語災害関連テキスト分類システムを提案する。
我々のエンドツーエンドのトレーニング可能なフレームワークは、コーパスに代えてグラフニューラルネットワークの汎用性を組み合わせたものです。
我々は、モノ、クロス、マルチ言語分類シナリオにおいて、合計9つの英語、非英語、モノリンガルデータセットについて、我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2022-03-06T09:05:42Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Syntax Representation in Word Embeddings and Neural Networks -- A Survey [4.391102490444539]
本稿では,単語表現に含まれる統語的情報量を評価するためのアプローチについて述べる。
主に、言語モデリングタスクにおける英語単言語データの再検討について要約する。
本稿では,どの事前学習モデルと言語表現が構文的タスクに最も適しているかを説明する。
論文 参考訳(メタデータ) (2020-10-02T15:44:58Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。