論文の概要: Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary
Restriction as Post Processing
- arxiv url: http://arxiv.org/abs/2304.10808v1
- Date: Fri, 21 Apr 2023 08:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:31:35.157579
- Title: Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary
Restriction as Post Processing
- Title(参考訳): 語彙制限を考慮した下流タスク指向ニューラルトケナイザ最適化
- Authors: Tatsuya Hiraoka, Tomoya Iwakura
- Abstract要約: 本稿では,すでに訓練済みの下流モデルの性能向上のために,トークン化を最適化する手法を提案する。
本手法は,語彙制限のためのトレーニングデータに基づいて,与えられた下流モデルの損失値の低いトークン化結果を生成し,トークン化結果を再現するトークン化者を訓練する。
- 参考スコア(独自算出の注目度): 4.781986758380065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method to optimize tokenization for the performance
improvement of already trained downstream models. Our method generates
tokenization results attaining lower loss values of a given downstream model on
the training data for restricting vocabularies and trains a tokenizer
reproducing the tokenization results. Therefore, our method can be applied to
variety of tokenization methods, while existing work cannot due to the
simultaneous learning of the tokenizer and the downstream model. This paper
proposes an example of the BiLSTM-based tokenizer with vocabulary restriction,
which can capture wider contextual information for the tokenization process
than non-neural-based tokenization methods used in existing work. Experimental
results on text classification in Japanese, Chinese, and English text
classification tasks show that the proposed method improves performance
compared to the existing methods for tokenization optimization.
- Abstract(参考訳): 本稿では,すでに訓練済みの下流モデルの性能向上のためにトークン化を最適化する手法を提案する。
本手法は,語彙制限のための訓練データ上で,所定の下流モデルの損失値が低いトークン化結果を生成し,トークン化結果を再現するトークン化子を訓練する。
したがって,提案手法は様々なトークン化手法に適用できるが,既存の作業はトークン化器と下流モデルの同時学習によるものではない。
本稿では,既存の作業で使用される非神経的トークン化手法よりも,トークン化プロセスのコンテキスト情報をより広くキャプチャできる,語彙制限付きBiLSTMベースのトークン化手法の例を提案する。
日本語,中国語,英語のテキスト分類タスクにおけるテキスト分類実験の結果,既存のトークン化最適化手法に比べて性能が向上した。
関連論文リスト
- Improving Korean NLP Tasks with Linguistically Informed Subword
Tokenization and Sub-character Decomposition [6.767341847275751]
本稿では, Byte Pairの適用課題に対処するために, サブ文字分解を利用した形態素認識サブワードトークン化手法を提案する。
我々のアプローチは、事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる
本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-11-07T12:08:21Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Tokenization with Factorized Subword Encoding [2.538209532048867]
本稿では,VQ-VAEモデルを用いて,サブワードを離散三重項に分解する新しいトークン化手法を提案する。
その結果, この手法は, 一般的に使用されるバイトペア符号化(BPE)トークン化アルゴリズムよりも, 形態的タスクに適しており, 頑健であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T13:27:34Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Joint Optimization of Tokenization and Downstream Model [22.336172850954938]
本稿では,トークン化器とモデルとの協調最適化により,与えられた下流モデルに適切なトークン化を求める手法を提案する。
提案手法は, 下流モデルで計算した損失値を用いてトークン化者を訓練する以外, 制限はない。
本手法が3言語におけるテキスト分類の性能向上に寄与するかどうかを8言語対の機械翻訳で評価する。
論文 参考訳(メタデータ) (2021-05-26T09:05:10Z) - Lexically Constrained Neural Machine Translation with Levenshtein
Transformer [8.831954614241234]
本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。
提案手法は,デコード速度に影響を与えることなく,推論時に用語制約を注入する。
論文 参考訳(メタデータ) (2020-04-27T09:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。