論文の概要: Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation
- arxiv url: http://arxiv.org/abs/2601.09648v1
- Date: Wed, 14 Jan 2026 17:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.486115
- Title: Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation
- Title(参考訳): 銀標準データを用いたハイブリッドルールとニューラルネットワークに基づくセマンティックタガーの作成:多言語セマンティックアノテーションのためのPyMUSASフレームワーク
- Authors: Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang,
- Abstract要約: 5つの異なる言語を用いたルールベースシステムにおいて,最も大きなセマンティックタグ付け評価を行う。
単言語モデルと多言語モデルの両方で、単言語モデルと多言語モデルを比較し、評価する。
トレーニングされたデータ、中国の評価データセット、そしてすべてのコードがオープンリソースとしてリリースされた。
- 参考スコア(独自算出の注目度): 2.570766532236233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word Sense Disambiguation (WSD) has been widely evaluated using the semantic frameworks of WordNet, BabelNet, and the Oxford Dictionary of English. However, for the UCREL Semantic Analysis System (USAS) framework, no open extensive evaluation has been performed beyond lexical coverage or single language evaluation. In this work, we perform the largest semantic tagging evaluation of the rule based system that uses the lexical resources in the USAS framework covering five different languages using four existing datasets and one novel Chinese dataset. We create a new silver labelled English dataset, to overcome the lack of manually tagged training data, that we train and evaluate various mono and multilingual neural models in both mono and cross-lingual evaluation setups with comparisons to their rule based counterparts, and show how a rule based system can be enhanced with a neural network model. The resulting neural network models, including the data they were trained on, the Chinese evaluation dataset, and all of the code have been released as open resources.
- Abstract(参考訳): Word Sense Disambiguation (WSD)は、WordNet、BabelNet、オックスフォード英語辞典のセマンティックフレームワークを用いて広く評価されている。
しかし, UCREL Semantic Analysis System (USAS) フレームワークでは, 語彙カバレッジや単一言語評価以外にも, 広範な評価は行われていない。
本研究では,既存の4つのデータセットと1つの中国語データセットを用いて,5つの言語をカバーするUSASフレームワークの語彙資源を用いたルールベースシステムにおいて,最も大きなセマンティックタグ付け評価を行う。
我々は、手動でタグ付けされたトレーニングデータの欠如を克服するために、新しい銀のラベル付き英語データセットを作成し、モノおよびクロスランガル評価設定の様々なモノおよびマルチランガルニューラルネットワークモデルを、ルールベースのデータセットと比較してトレーニングし、ニューラルネットワークモデルでルールベースのシステムをどのように拡張できるかを示す。
トレーニングされたデータ、中国の評価データセット、そしてすべてのコードがオープンリソースとしてリリースされた。
関連論文リスト
- BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。
大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。
我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-11-13T14:12:44Z) - Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning [5.5119571570277826]
言語間単語アライメントは、自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
本稿では,BiLSTMに基づくエンコーダデコーダフレームワークにコントラスト学習を取り入れることを提案する。
論文 参考訳(メタデータ) (2024-07-06T11:56:41Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Syntax Representation in Word Embeddings and Neural Networks -- A Survey [4.391102490444539]
本稿では,単語表現に含まれる統語的情報量を評価するためのアプローチについて述べる。
主に、言語モデリングタスクにおける英語単言語データの再検討について要約する。
本稿では,どの事前学習モデルと言語表現が構文的タスクに最も適しているかを説明する。
論文 参考訳(メタデータ) (2020-10-02T15:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。