論文の概要: A Joint Approach to Compound Splitting and Idiomatic Compound Detection
- arxiv url: http://arxiv.org/abs/2003.09606v1
- Date: Sat, 21 Mar 2020 09:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 12:58:05.625745
- Title: A Joint Approach to Compound Splitting and Idiomatic Compound Detection
- Title(参考訳): 化合物分離とイディオマティック化合物検出の連成的アプローチ
- Authors: Irina Krotova and Sergey Aksenov and Ekaterina Artemova
- Abstract要約: 名詞化合物の詳細な処理には、それらをより小さな成分(または根)に分割する必要がある
我々は,ドイツ語に対する名詞合成と慣用的化合物検出の2倍の深層学習に基づくアプローチを開発した。
我々のニューラル名詞化合物スプリッターはサブワードレベルで動作し、最先端の技術を約5%上回っている。
- 参考スコア(独自算出の注目度): 2.172754891384887
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Applications such as machine translation, speech recognition, and information
retrieval require efficient handling of noun compounds as they are one of the
possible sources for out-of-vocabulary (OOV) words. In-depth processing of noun
compounds requires not only splitting them into smaller components (or even
roots) but also the identification of instances that should remain unsplitted
as they are of idiomatic nature. We develop a two-fold deep learning-based
approach of noun compound splitting and idiomatic compound detection for the
German language that we train using a newly collected corpus of annotated
German compounds. Our neural noun compound splitter operates on a sub-word
level and outperforms the current state of the art by about 5%.
- Abstract(参考訳): 機械翻訳、音声認識、情報検索などの応用は、語彙外語(oov)の源の1つである名詞化合物の効率的な処理を必要とする。
名詞化合物の詳細な処理は、それらをより小さな成分(または根)に分割するだけでなく、慣用的な性質として分離されないべきインスタンスの同定も必要である。
我々は,新たに収集したドイツ語化合物のコーパスを用いて学習したドイツ語に対する名詞化合物分割と慣用化合物検出の2倍の深層学習に基づくアプローチを開発した。
我々の神経名詞複合スプリッターは, サブワードレベルで動作し, 術の現況を約5%上回っている。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Nominal Compound Chain Extraction: A New Task for Semantic-enriched
Lexical Chain [34.352862428120126]
本稿では, 同一の意味的トピックを共有するすべての名目化合物を抽出・クラスタリングする, NCCE(Nominal Compound Chain extract)という新しいタスクを導入する。
さらに,そのタスクを2段階の予測(複合抽出と連鎖検出)としてモデル化し,提案したジョイントフレームワークを用いて処理する。
実験は手動でアノテートしたコーパスに基づいており、NCCEタスクの必要性が証明されている。
論文 参考訳(メタデータ) (2020-09-19T06:20:37Z) - Kvistur 2.0: a BiLSTM Compound Splitter for Icelandic [2.6763498831034043]
アイスランド語複合語を分割するための文字ベースBiLSTMモデルを提案する。
各種トレーニングデータがモデルの性能にどのように影響するかを示す。
論文 参考訳(メタデータ) (2020-04-16T17:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。