Fugu-MT 論文翻訳(概要): Unsupervised Morphological Tree Tokenizer

論文の概要: Unsupervised Morphological Tree Tokenizer

arxiv url: http://arxiv.org/abs/2406.15245v1
Date: Fri, 21 Jun 2024 15:35:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 13:03:22.981090
Title: Unsupervised Morphological Tree Tokenizer
Title（参考訳）: 教師なしモルフォロジーツリートケナイザ
Authors: Qingyang Zhu, Xiang Hu, Pengyu Ji, Wei Wu, Kewei Tu,
Abstract要約: トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。具体的には、ディープモデルは、語の内部構造と表現を@textitOverriding$というメカニズムで共同でエンコードし、モルヒムの非分解性を保証する。提案アルゴリズムは,提案手法により,単語をトップダウン方式で語彙マッチングによりトークン化する。
参考スコア（独自算出の注目度）: 36.584680344291556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a cornerstone in language modeling, tokenization involves segmenting text inputs into pre-defined atomic units. Conventional statistical tokenizers often disrupt constituent boundaries within words, thereby corrupting semantic information. To address this drawback, we introduce morphological structure guidance to tokenization and propose a deep model to induce character-level structures of words. Specifically, the deep model jointly encodes internal structures and representations of words with a mechanism named $\textit{MorphOverriding}$ to ensure the indecomposability of morphemes. By training the model with self-supervised objectives, our method is capable of inducing character-level structures that align with morphological rules without annotated training data. Based on the induced structures, our algorithm tokenizes words through vocabulary matching in a top-down manner. Empirical results indicate that the proposed method effectively retains complete morphemes and outperforms widely adopted methods such as BPE and WordPiece on both morphological segmentation tasks and language modeling tasks. The code will be released later.
Abstract（参考訳）: 言語モデリングの基盤として、トークン化はテキスト入力を事前に定義された原子単位に分割する。従来の統計トークン化器は、しばしば単語の構成要素の境界を乱し、意味情報を損なう。この欠点に対処するために、トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。具体的には、ディープモデルは単語の内部構造と表現を$\textit{MorphOverriding}$というメカニズムで共同で符号化し、モルヒムの非分解性を保証する。本手法は,自己教師対象モデルを用いて学習することにより,アノテートしたトレーニングデータなしで形態的規則に整合した文字レベルの構造を誘導することができる。提案アルゴリズムは,提案手法により,単語をトップダウン方式で語彙マッチングによりトークン化する。実験結果から,提案手法は,BPE や WordPiece など広く採用されている手法を,形態的セグメンテーションタスクと言語モデリングタスクの両方で効果的に維持し,性能を向上することが示された。コードは後でリリースされる。

関連論文リスト

From Smør-re-brød to Subwords: Training LLMs on Danish, One Morpheme at a Time [8.28573483085828]
我々は、デンマークの注釈付き形態素データセットを利用して、形態素分割のための半教師付きモデルを訓練する。デンマーク語の単語をテクスチャ的にセグメント化することで,2つのカスタムな形態素トークン化器を含む4つの異なるトークン化器の評価を行った。その結果、デンマークのBPEトークン化装置が達成した39.28と比べ、F1スコア58.84を達成し、我々のカスタム開発したトークン化装置はモルフォロジーのセグメンテーションを著しく向上させることが判明した。
論文参考訳（メタデータ） (2025-04-02T09:26:02Z)
Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文参考訳（メタデータ） (2024-10-03T08:07:14Z)
Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文参考訳（メタデータ） (2024-05-28T17:01:22Z)
From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文参考訳（メタデータ） (2023-05-23T23:22:20Z)
Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文参考訳（メタデータ） (2023-05-23T04:28:16Z)
Inducing Character-level Structure in Subword-based Language Models with Type-level Interchange Intervention Training [36.19870483966741]
サブワードに基づく言語モデルの中で,ロバストで解釈可能な文字表現を学習するための因果介入フレームワークを開発した。本手法は,各文字を因果モデルにおける型付き変数として扱い,そのような因果構造を学習する。さらに、意味やシーケンスレベルの文脈に依存して体系的に変化する文字レベルのタスク群も導入する。
論文参考訳（メタデータ） (2022-12-19T22:37:46Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
More Than Words: Collocation Tokenization for Latent Dirichlet Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文参考訳（メタデータ） (2021-08-24T14:08:19Z)
Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文参考訳（メタデータ） (2021-03-30T18:02:58Z)
Unsupervised Distillation of Syntactic Information from Contextualized Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文参考訳（メタデータ） (2020-10-11T15:13:18Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
Exploiting Syntactic Structure for Better Language Modeling: A Syntactic Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。 Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文参考訳（メタデータ） (2020-05-12T15:35:00Z)
A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology with Deep Learning [0.0]
本稿では,特に訓練データ量に制限のある言語に対して,依存関係解析の2つのアプローチを提案する。第1のアプローチは、最先端のディープラーニングとルールベースのアプローチを組み合わせ、第2のアプローチは、形態情報をネットワークに組み込む。提案手法はトルコ語向けに開発されたが、他の言語にも適用可能である。
論文参考訳（メタデータ） (2020-02-24T08:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。