論文の概要: Unsupervised Morphological Tree Tokenizer
- arxiv url: http://arxiv.org/abs/2406.15245v1
- Date: Fri, 21 Jun 2024 15:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:03:22.981090
- Title: Unsupervised Morphological Tree Tokenizer
- Title(参考訳): 教師なしモルフォロジーツリートケナイザ
- Authors: Qingyang Zhu, Xiang Hu, Pengyu Ji, Wei Wu, Kewei Tu,
- Abstract要約: トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
具体的には、ディープモデルは、語の内部構造と表現を@textitOverriding$というメカニズムで共同でエンコードし、モルヒムの非分解性を保証する。
提案アルゴリズムは,提案手法により,単語をトップダウン方式で語彙マッチングによりトークン化する。
- 参考スコア(独自算出の注目度): 36.584680344291556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a cornerstone in language modeling, tokenization involves segmenting text inputs into pre-defined atomic units. Conventional statistical tokenizers often disrupt constituent boundaries within words, thereby corrupting semantic information. To address this drawback, we introduce morphological structure guidance to tokenization and propose a deep model to induce character-level structures of words. Specifically, the deep model jointly encodes internal structures and representations of words with a mechanism named $\textit{MorphOverriding}$ to ensure the indecomposability of morphemes. By training the model with self-supervised objectives, our method is capable of inducing character-level structures that align with morphological rules without annotated training data. Based on the induced structures, our algorithm tokenizes words through vocabulary matching in a top-down manner. Empirical results indicate that the proposed method effectively retains complete morphemes and outperforms widely adopted methods such as BPE and WordPiece on both morphological segmentation tasks and language modeling tasks. The code will be released later.
- Abstract(参考訳): 言語モデリングの基盤として、トークン化はテキスト入力を事前に定義された原子単位に分割する。
従来の統計トークン化器は、しばしば単語の構成要素の境界を乱し、意味情報を損なう。
この欠点に対処するために、トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
具体的には、ディープモデルは単語の内部構造と表現を$\textit{MorphOverriding}$というメカニズムで共同で符号化し、モルヒムの非分解性を保証する。
本手法は,自己教師対象モデルを用いて学習することにより,アノテートしたトレーニングデータなしで形態的規則に整合した文字レベルの構造を誘導することができる。
提案アルゴリズムは,提案手法により,単語をトップダウン方式で語彙マッチングによりトークン化する。
実験結果から,提案手法は,BPE や WordPiece など広く採用されている手法を,形態的セグメンテーションタスクと言語モデリングタスクの両方で効果的に維持し,性能を向上することが示された。
コードは後でリリースされる。
関連論文リスト
- Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
自然言語の木の様構造を捉える階層的生成モデルを用いる。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係はデータセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Inducing Character-level Structure in Subword-based Language Models with
Type-level Interchange Intervention Training [36.19870483966741]
サブワードに基づく言語モデルの中で,ロバストで解釈可能な文字表現を学習するための因果介入フレームワークを開発した。
本手法は,各文字を因果モデルにおける型付き変数として扱い,そのような因果構造を学習する。
さらに、意味やシーケンスレベルの文脈に依存して体系的に変化する文字レベルのタスク群も導入する。
論文 参考訳(メタデータ) (2022-12-19T22:37:46Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology
with Deep Learning [0.0]
本稿では,特に訓練データ量に制限のある言語に対して,依存関係解析の2つのアプローチを提案する。
第1のアプローチは、最先端のディープラーニングとルールベースのアプローチを組み合わせ、第2のアプローチは、形態情報をネットワークに組み込む。
提案手法はトルコ語向けに開発されたが、他の言語にも適用可能である。
論文 参考訳(メタデータ) (2020-02-24T08:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。