論文の概要: Understanding the effects of word-level linguistic annotations in
under-resourced neural machine translation
- arxiv url: http://arxiv.org/abs/2401.16078v1
- Date: Mon, 29 Jan 2024 11:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 15:02:09.286126
- Title: Understanding the effects of word-level linguistic annotations in
under-resourced neural machine translation
- Title(参考訳): 語レベルの言語アノテーションが低リソースニューラルマシン翻訳に与える影響の理解
- Authors: V\'ictor M. S\'anchez-Cartagena, Juan Antonio P\'erez-Ortiz, Felipe
S\'anchez-Mart\'inez
- Abstract要約: 本稿では,低リソースのニューラルマシン翻訳における単語レベルの言語アノテーションの効果について検討する。
音声のパート・オブ・音声タグは、自動評価指標の点からモルフォ・シンタクティック記述タグよりも体系的に優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the effects of word-level linguistic annotations in
under-resourced neural machine translation, for which there is incomplete
evidence in the literature. The study covers eight language pairs, different
training corpus sizes, two architectures, and three types of annotation: dummy
tags (with no linguistic information at all), part-of-speech tags, and
morpho-syntactic description tags, which consist of part of speech and
morphological features. These linguistic annotations are interleaved in the
input or output streams as a single tag placed before each word. In order to
measure the performance under each scenario, we use automatic evaluation
metrics and perform automatic error classification. Our experiments show that,
in general, source-language annotations are helpful and morpho-syntactic
descriptions outperform part of speech for some language pairs. On the
contrary, when words are annotated in the target language, part-of-speech tags
systematically outperform morpho-syntactic description tags in terms of
automatic evaluation metrics, even though the use of morpho-syntactic
description tags improves the grammaticality of the output. We provide a
detailed analysis of the reasons behind this result.
- Abstract(参考訳): 本稿では,文献に不完全な証拠が存在するニューラルネットワーク翻訳における単語レベルの言語アノテーションの効果について検討する。
この研究は、8つの言語ペア、2つのトレーニングコーパスサイズ、2つのアーキテクチャ、3種類のアノテーション、ダミータグ(言語情報は全くない)、パート・オブ・スパイチタグ、モーフォ・シンタクティック記述タグ(音声と形態素的特徴からなる)をカバーしている。
これらの言語アノテーションは、各単語の前に置かれる単一のタグとして入力または出力ストリームにインターリーブされる。
各シナリオでの性能を測定するために,自動評価メトリクスを使用し,自動エラー分類を行う。
実験の結果, ソース言語アノテーションが有用であり, モルフォ・シンタクティックな記述が一部の言語対よりも優れていることがわかった。
反対に、対象言語で単語に注釈を付けると、モーフォシンタクティブ記述タグの使用が出力の文法性を改善するにもかかわらず、自動評価メトリクスの観点で、part-of-speechタグはモーフォシンタク記述タグを体系的に上回る。
この結果の背景にある理由を詳細に分析する。
関連論文リスト
- Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective [0.0]
依存関係解析を用いて、ウルドゥー語でニュース記事を分析する。
最良ラベル付き精度(LA)は70%,未ラベル付きアタッチメントスコア(UAS)は84%であった。
論文 参考訳(メタデータ) (2024-06-13T19:30:32Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - On the Impact of Knowledge-based Linguistic Annotations in the Quality
of Scientific Embeddings [0.0]
我々は, 科学的コーパスから埋め込みを生成するために, 明示的な言語アノテーションを用いた研究を行う。
以上の結果から,組込みにおけるアノテーションの効果は評価作業によってどのように変化するかを示す。
一般に,言語アノテーションを用いた埋め込み学習が,より良い評価結果の獲得に寄与すると考えられる。
論文 参考訳(メタデータ) (2021-04-13T13:51:22Z) - Sparsely Factored Neural Machine Translation [3.4376560669160394]
言語情報をニューラルマシン翻訳システムに組み込む標準的なアプローチは、注釈付き特徴ごとに別々の語彙を維持することである。
そこで本研究では,ドメイン外データの大幅な改善と,ドメイン内データに匹敵する品質を示す手法を提案する。
低リソースシナリオの場合、実験はバスク語やドイツ語のような形態素豊かな言語で行われる。
論文 参考訳(メタデータ) (2021-02-17T18:42:00Z) - Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT [7.057643880514415]
MBERT(Multilingual BERT)が文法をエンコードするには,複数言語の埋め込み空間にまたがるモルフォシンタクティックアライメントの高次文法的特徴がどのように現れるかを検討する。
論文 参考訳(メタデータ) (2021-01-26T19:21:59Z) - Neural disambiguation of lemma and part of speech in morphologically
rich languages [0.6346772579930928]
形態的に豊かな言語における不明瞭な単語の補題と発話の一部を曖昧にすることの問題点を考察する。
そこで本稿では, テキストの未注釈コーパスと形態素解析を用いて, 文脈におけるあいまいな単語の曖昧さを解消する手法を提案する。
論文 参考訳(メタデータ) (2020-07-12T21:48:52Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。