論文の概要: Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization
- arxiv url: http://arxiv.org/abs/2410.17094v1
- Date: Sat, 19 Oct 2024 04:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:23.399856
- Title: Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization
- Title(参考訳): Team RyuのSIGMORPHON 2024へのサブワードトークン化に関する共有タスク
- Authors: Zilong Li,
- Abstract要約: サブワードトークン化手法の一部として形態素セグメンテーション法が利用できるかどうかを考察する。
予測結果から, 形態的セグメンテーションは, 一般的に使われているサブワードトークン化剤と同じくらい有効である可能性が示唆された。
バランスの取れたトークンの頻度分布を持つトークン化器は、よりうまく機能する傾向にある。
- 参考スコア(独自算出の注目度): 3.0023392750520883
- License:
- Abstract: This papers presents the submission of team Ryu to the canceled SIGMORPHON 2024 shared task on subword tokenization. My submission explores whether morphological segmentation methods can be used as a part of subword tokenizers. I adopt two approaches: the statistical segmentation method Morfessor and a transformer based sequence-to-sequence (seq2seq) segmentation model in tokenizers. The prediction results show that morphological segmentation could be as effective as commonly used subword tokenizers. Additionally, I investigate how a tokenizer's vocabulary influences the performance of language models. A tokenizer with a balanced token frequency distribution tends to work better. A balanced token vocabulary can be achieved by keeping frequent words as unique tokens.
- Abstract(参考訳): 本論文は,サブワードトークン化におけるSIGMORPHON 2024共有タスクに対するチームRyuの提出について述べる。
サブワードトークン化手法の一部として形態素セグメンテーション法が利用できるかどうかを考察する。
統計的セグメンテーション法であるMorfessorと、トークン化器におけるトランスフォーマーに基づくシーケンス・ツー・シーケンス(seq2seq)セグメンテーションモデルを採用する。
予測結果から, 形態的セグメンテーションは, 一般的に使われているサブワードトークン化剤と同じくらい有効である可能性が示唆された。
さらに,トークンの語彙が言語モデルの性能に与える影響についても検討する。
バランスの取れたトークンの頻度分布を持つトークン化器は、よりうまく機能する傾向にある。
頻繁な単語をユニークなトークンとして保持することで、バランスの取れたトークン語彙を実現することができる。
関連論文リスト
- Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。
まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。
第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。
第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:48:19Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Assessing the Importance of Frequency versus Compositionality for
Subword-based Tokenization in NMT [7.600968522331612]
サブワードトークン化は、ニューラルネットワークモデルと機械翻訳システムにおけるトークン化のデファクトスタンダードである。
3つの利点は、頻繁なトークンの符号化の短縮、サブワードの合成性、未知の単語を扱う能力である。
コンポジション性から周波数を分離できるトークン化手法を提案する。
論文 参考訳(メタデータ) (2023-06-02T09:39:36Z) - Comparing Variation in Tokenizer Outputs Using a Series of Problematic
and Challenging Biomedical Sentences [0.0]
本研究の目的は, バイオメディカルな一連の文章に適用した場合に, トークン化剤の出力の変動について検討することである。
本研究で比較したトークン化剤は, NLTKホワイトスペース・トークン化剤, NLTKペン・ツリーバンク・トークン化剤, Spacy and SciSpacyトークン化剤, Stanza/Stanza-Craftトークン化剤, UDPipeトークン化剤, R-tokenizersである。
論文 参考訳(メタデータ) (2023-05-15T16:46:47Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。