論文の概要: A Multi-head-based architecture for effective morphological tagging in Russian with open dictionary
- arxiv url: http://arxiv.org/abs/2604.02926v1
- Date: Fri, 03 Apr 2026 09:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.438295
- Title: A Multi-head-based architecture for effective morphological tagging in Russian with open dictionary
- Title(参考訳): オープン辞書を用いたロシア語における効果的な形態的タグ付けのためのマルチヘッドアーキテクチャ
- Authors: K. Skibin, M. Pozhidaev, S. Suschenko,
- Abstract要約: 本稿は,ロシア語における形態的タグ付けの課題を解決するために,多面的注意に基づく新しいアーキテクチャを提案する。
アーキテクチャは、すべての文法カテゴリを正確に予測し、その単語に対してカテゴリを解析してはいけないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The article proposes a new architecture based on Multi-head attention to solve the problem of morphological tagging for the Russian language. The preprocessing of the word vectors includes splitting the words into subtokens, followed by a trained procedure for aggregating the vectors of the subtokens into vectors for tokens. This allows to support an open dictionary and analyze morphological features taking into account parts of words (prefixes, endings, etc.). The open dictionary allows in future to analyze words that are absent in the training dataset. The performed computational experiment on the SinTagRus and Taiga datasets shows that for some grammatical categories the proposed architecture gives accuracy 98-99% and above, which outperforms previously known results. For nine out of ten words, the architecture precisely predicts all grammatical categories and indicates when the categories must not be analyzed for the word. At the same time, the model based on the proposed architecture can be trained on consumer-level graphics accelerators, retains all the advantages of Multi-head attention over RNNs (RNNs are not used in the proposed approach), does not require pretraining on large collections of unlabeled texts (like BERT), and shows higher processing speed than previous results.
- Abstract(参考訳): 本稿は,ロシア語における形態的タグ付けの課題を解決するために,多面的注意に基づく新しいアーキテクチャを提案する。
単語ベクトルの前処理は、単語をサブトークンに分割した後、サブトークンのベクトルをトークンのベクトルに集約する訓練された手順を含む。
これにより、オープン辞書をサポートし、単語の一部(前置詞、末尾など)を考慮に入れた形態的特徴を分析することができる。
オープン辞書は将来、トレーニングデータセットに欠けている単語を分析することができる。
SinTagRusとTaigaデータセットの計算実験により、いくつかの文法カテゴリにおいて、提案されたアーキテクチャは98~99%以上の精度を示し、既知の結果を上回る結果が得られた。
10語中9語について、このアーキテクチャはすべての文法カテゴリーを正確に予測し、その単語に対してカテゴリを解析してはいけないことを示す。
同時に、提案アーキテクチャに基づくモデルは、コンシューマレベルのグラフィックアクセラレーションに基づいてトレーニングでき、RNN(RNNは提案手法では使用されていない)に対するマルチヘッドアテンションの利点をすべて保持し、未ラベルテキストの大規模なコレクション(BERTなど)を事前訓練する必要がなく、以前の結果よりも処理速度が高い。
関連論文リスト
- Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
本手法は,アノテート学習データなしで形態素規則に整合した文字レベルの構造を誘導することができる。
実験の結果,提案手法は完全形態素を効果的に保持し,BPEやWordPieceといった広く採用されている手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - More Romanian word embeddings from the RETEROM project [0.0]
単語埋め込み」は、単語のベクトル表現を自動的に学習する。
使用可能な単語埋め込みセットをオープンアクセス可能な大規模ライブラリを開発する計画である。
論文 参考訳(メタデータ) (2021-11-21T06:05:12Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Morphological Skip-Gram: Using morphological knowledge to improve word
representation [2.0129974477913457]
我々は,文字n-gramのFastTextバッグを単語形態素の袋に置き換えることで,単語埋め込みを訓練する新しい手法を提案する。
結果は、FastTextと比較して、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-07-20T12:47:36Z) - Learning Deep Analysis Dictionaries for Image Super-Resolution [38.7315182732103]
ディープ分析辞書モデル(DeepAM)は、単一画像超解像と呼ばれる特定の回帰課題に対処するために最適化されている。
我々のアーキテクチャはL層の解析辞書とソフトスレッショルド演算子を含む。
DeepAMは、教師なしと教師なしの両方のセットアップを使用する。
論文 参考訳(メタデータ) (2020-01-31T18:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。