論文の概要: Multilingual Word Sense Disambiguation with Unified Sense Representation
- arxiv url: http://arxiv.org/abs/2210.07447v1
- Date: Fri, 14 Oct 2022 01:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:15:26.458528
- Title: Multilingual Word Sense Disambiguation with Unified Sense Representation
- Title(参考訳): 統一意味表現を用いた多言語単語センスの曖昧化
- Authors: Ying Su, Hongming Zhang, Yangqiu Song, Tong Zhang
- Abstract要約: 本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 55.3061179361177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a key natural language processing (NLP) task, word sense disambiguation
(WSD) evaluates how well NLP models can understand the lexical semantics of
words under specific contexts. Benefited from the large-scale annotation,
current WSD systems have achieved impressive performances in English by
combining supervised learning with lexical knowledge. However, such success is
hard to be replicated in other languages, where we only have limited
annotations.In this paper, based on the multilingual lexicon BabelNet
describing the same set of concepts across languages, we propose building
knowledge and supervised-based Multilingual Word Sense Disambiguation (MWSD)
systems. We build unified sense representations for multiple languages and
address the annotation scarcity problem for MWSD by transferring annotations
from rich-sourced languages to poorer ones. With the unified sense
representations, annotations from multiple languages can be jointly trained to
benefit the MWSD tasks. Evaluations of SemEval-13 and SemEval-15 datasets
demonstrate the effectiveness of our methodology.
- Abstract(参考訳): キー自然言語処理(NLP)タスクとして、単語感覚の曖昧さ(WSD)は、特定の文脈下での単語の語彙的意味論がいかにうまく理解できるかを評価する。
大規模アノテーションの恩恵を受けた現在のwsdシステムは、教師付き学習と語彙知識を組み合わせることで、英語で印象的なパフォーマンスを達成している。
しかし、このような成功は、限定的なアノテーションしか持たない他の言語では再現が難しい。本稿では、言語間の概念のセットを記述した多言語レキシコン・バベルネットに基づいて、知識の構築と教師付き多言語単語認識不曖昧化(mwsd)システムを提案する。
複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
統一されたセンス表現では、MWSDタスクのために複数の言語からのアノテーションを共同で訓練することができる。
semeval-13およびsemeval-15データセットの評価は,本手法の有効性を示す。
関連論文リスト
- Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features [18.76505158652759]
複数の言語間の意味的特徴と言語的特徴を利用して多言語翻訳を強化することを提案する。
エンコーダ側では,意味的特徴と言語的特徴を両立させることにより,エンコーダ表現を整合させる非係合学習タスクを導入する。
デコーダ側では、言語エンコーダを利用して低レベル言語機能を統合し、ターゲット言語生成を支援する。
論文 参考訳(メタデータ) (2024-08-02T17:10:12Z) - Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。
本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。
ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文 参考訳(メタデータ) (2024-04-16T21:45:59Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
本稿では,AIの安全性の重要性から,人間の価値観に関する概念(すなわち,価値の概念)に焦点を当てる。
我々はまず,LLMにおける価値概念の存在を多言語形式で実証的に確認した。
これらの概念の言語間特性に関するさらなる分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - Semantic enrichment towards efficient speech representations [9.30840529284715]
本研究では,SAMU-XLSRモデルのドメイン内セマンティックエンリッチメントについて検討する。
我々は、低リソース言語移植性のために、同じドメインのフランス語とイタリア語のベンチマークを使用することの利点を示す。
論文 参考訳(メタデータ) (2023-07-03T19:52:56Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。