論文の概要: Semi-Supervised and Unsupervised Sense Annotation via Translations
- arxiv url: http://arxiv.org/abs/2106.06462v1
- Date: Fri, 11 Jun 2021 15:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 17:41:59.569800
- Title: Semi-Supervised and Unsupervised Sense Annotation via Translations
- Title(参考訳): 翻訳による半監督・教師なしセンスアノテーション
- Authors: Bradley Hauer, Grzegorz Kondrak, Yixing Luan, Arnob Mallik, Lili Mou
- Abstract要約: 感性アノテートコーパスを作成するための3つの新しい手法を提案する。
我々の半教師あり手法は、既存のセンスアノテーションを他の言語に転送するために機械翻訳を適用する。
2つの教師なし手法は、知識に基づくWSDシステムを用いて並列コーパスを注釈し、語彙翻訳を識別することで得られた感覚アノテーションを洗練する。
- 参考スコア(独自算出の注目度): 26.595015138290613
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Acquisition of multilingual training data continues to be a challenge in word
sense disambiguation (WSD). To address this problem, unsupervised approaches
have been developed in recent years that automatically generate sense
annotations suitable for training supervised WSD systems. We present three new
methods to creating sense-annotated corpora, which leverage translations,
parallel corpora, lexical resources, and contextual and synset embeddings. Our
semi-supervised method applies machine translation to transfer existing sense
annotations to other languages. Our two unsupervised methods use a
knowledge-based WSD system to annotate a parallel corpus, and refine the
resulting sense annotations by identifying lexical translations. We obtain
state-of-the-art results on standard WSD benchmarks.
- Abstract(参考訳): 単語感覚曖昧化(WSD)において,多言語学習データの獲得は引き続き課題である。
この問題に対処するために、教師なしのアプローチが近年開発され、教師付きWSDシステムのトレーニングに適したセンスアノテーションを自動生成している。
本稿では, 翻訳, 並列コーパス, 語彙資源, コンテクストおよびシンセット埋め込みを活用する, センスアノテートコーパスを作成するための3つの新しい手法を提案する。
本手法は,既存のセンスアノテーションを他の言語に翻訳するために機械翻訳を適用する。
2つの教師なし手法は、知識に基づくWSDシステムを用いて並列コーパスを注釈し、語彙翻訳を識別することで得られた感覚アノテーションを洗練する。
標準WSDベンチマークで最先端の結果を得る。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Word Sense Induction with Knowledge Distillation from BERT [6.88247391730482]
本稿では、文脈における単語の感覚に注意を払って、事前学習された言語モデル(BERT)から複数の単語感覚を抽出する手法を提案する。
文脈的単語類似性および感覚誘導タスクの実験は、この手法が最先端のマルチセンス埋め込みよりも優れているか、あるいは競合していることを示している。
論文 参考訳(メタデータ) (2023-04-20T21:05:35Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Unsupervised Alignment of Distributional Word Embeddings [0.0]
クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。
提案手法は,複数の言語対をまたいだバイリンガル語彙誘導タスクにおいて,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-03-09T16:39:06Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Reference Language based Unsupervised Neural Machine Translation [108.64894168968067]
教師なしの神経機械翻訳は ほぼ完全に パラレルコーパスの呪いを和らげる
我々はUNMTのための新しい参照言語ベースのフレームワークであるRUNMTを提案し、参照言語はソースと並列コーパスを共有するのみである。
実験の結果,一つの補助言語のみを用いる強いベースラインよりもUNMTの品質が向上することが確認された。
論文 参考訳(メタデータ) (2020-04-05T08:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。