Fugu-MT 論文翻訳(概要): Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary Restriction as Post Processing

論文の概要: Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary Restriction as Post Processing

arxiv url: http://arxiv.org/abs/2304.10808v1
Date: Fri, 21 Apr 2023 08:29:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-24 15:31:35.157579
Title: Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary Restriction as Post Processing
Title（参考訳）: 語彙制限を考慮した下流タスク指向ニューラルトケナイザ最適化
Authors: Tatsuya Hiraoka, Tomoya Iwakura
Abstract要約: 本稿では,すでに訓練済みの下流モデルの性能向上のために,トークン化を最適化する手法を提案する。本手法は,語彙制限のためのトレーニングデータに基づいて,与えられた下流モデルの損失値の低いトークン化結果を生成し,トークン化結果を再現するトークン化者を訓練する。
参考スコア（独自算出の注目度）: 4.781986758380065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a method to optimize tokenization for the performance improvement of already trained downstream models. Our method generates tokenization results attaining lower loss values of a given downstream model on the training data for restricting vocabularies and trains a tokenizer reproducing the tokenization results. Therefore, our method can be applied to variety of tokenization methods, while existing work cannot due to the simultaneous learning of the tokenizer and the downstream model. This paper proposes an example of the BiLSTM-based tokenizer with vocabulary restriction, which can capture wider contextual information for the tokenization process than non-neural-based tokenization methods used in existing work. Experimental results on text classification in Japanese, Chinese, and English text classification tasks show that the proposed method improves performance compared to the existing methods for tokenization optimization.
Abstract（参考訳）: 本稿では,すでに訓練済みの下流モデルの性能向上のためにトークン化を最適化する手法を提案する。本手法は,語彙制限のための訓練データ上で,所定の下流モデルの損失値が低いトークン化結果を生成し,トークン化結果を再現するトークン化子を訓練する。したがって,提案手法は様々なトークン化手法に適用できるが,既存の作業はトークン化器と下流モデルの同時学習によるものではない。本稿では,既存の作業で使用される非神経的トークン化手法よりも,トークン化プロセスのコンテキスト情報をより広くキャプチャできる,語彙制限付きBiLSTMベースのトークン化手法の例を提案する。日本語,中国語,英語のテキスト分類タスクにおけるテキスト分類実験の結果,既存のトークン化最適化手法に比べて性能が向上した。

関連論文リスト

Conditional Unigram Tokenization with Parallel Data [1.8416014644193066]
並列データからソース言語トークンにターゲットトークン確率を条件付けすることでユニグラムトークン化を拡張する新しい手法である条件付きユニグラムトークン化を導入する。我々は、異なるファミリーとリソースレベルにわたる4つの言語対でトークン化器を評価した。
論文参考訳（メタデータ） (2025-07-10T14:53:59Z)
When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-12-09T19:11:54Z)
An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文参考訳（メタデータ） (2024-03-30T15:29:49Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition [6.767341847275751]
本稿では, Byte Pairの適用課題に対処するために, サブ文字分解を利用した形態素認識サブワードトークン化手法を提案する。我々のアプローチは、事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-11-07T12:08:21Z)
Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文参考訳（メタデータ） (2023-10-09T00:20:59Z)
Tokenization with Factorized Subword Encoding [2.538209532048867]
本稿では,VQ-VAEモデルを用いて,サブワードを離散三重項に分解する新しいトークン化手法を提案する。その結果, この手法は, 一般的に使用されるバイトペア符号化(BPE)トークン化アルゴリズムよりも, 形態的タスクに適しており, 頑健であることが示唆された。
論文参考訳（メタデータ） (2023-06-13T13:27:34Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Obtaining Better Static Word Embeddings Using Contextual Embedding Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文参考訳（メタデータ） (2021-06-08T12:59:32Z)
Joint Optimization of Tokenization and Downstream Model [22.336172850954938]
本稿では,トークン化器とモデルとの協調最適化により,与えられた下流モデルに適切なトークン化を求める手法を提案する。提案手法は, 下流モデルで計算した損失値を用いてトークン化者を訓練する以外, 制限はない。本手法が3言語におけるテキスト分類の性能向上に寄与するかどうかを8言語対の機械翻訳で評価する。
論文参考訳（メタデータ） (2021-05-26T09:05:10Z)
Lexically Constrained Neural Machine Translation with Levenshtein Transformer [8.831954614241234]
本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。提案手法は,デコード速度に影響を与えることなく,推論時に用語制約を注入する。
論文参考訳（メタデータ） (2020-04-27T09:59:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。