論文の概要: Lost in Space Marking
- arxiv url: http://arxiv.org/abs/2208.01561v1
- Date: Tue, 2 Aug 2022 16:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:07:14.032495
- Title: Lost in Space Marking
- Title(参考訳): スペースマーキングにおける損失
- Authors: Cassandra L. Jacobs and Yuval Pinter
- Abstract要約: 我々は、サブワードトークンライザのトレーニングの初期に行われた決定、すなわち、それが特別なマークを持つ単語初期トークンであるべきか、または単語最終トークンであるべきかを考察する。
事前学習した英語テキストで訓練したUnigram LMトークンーは、単語初期トークンをマークするのよりも、単語終端をマークすることによる生テキストの利点をトレーニングした方がよいことがわかった。
- 参考スコア(独自算出の注目度): 15.782064149707352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We look at a decision taken early in training a subword tokenizer, namely
whether it should be the word-initial token that carries a special mark, or the
word-final one. Based on surface-level considerations of efficiency and
cohesion, as well as morphological coverage, we find that a Unigram LM
tokenizer trained on pre-tokenized English text is better off marking the
word-initial token, while one trained on raw text benefits from marking word
ends. Our findings generalize across domains.
- Abstract(参考訳): 我々は、サブワードトークンライザのトレーニングの初期に行われた決定、すなわち、それが特別なマークを持つ単語初期トークンであるべきか、または単語最終トークンであるべきかを考察する。
効率と凝集の面面レベルでの考察と形態的カバレッジに基づき,事前学習した英文で訓練したUnigram LMトークンは,単語初期トークンをマークすることよりも,単語末のマーク付けによる生テキストの利点をトレーニングした方がよいことがわかった。
我々の発見はドメインにまたがって一般化する。
関連論文リスト
- Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - A cost minimization approach to fix the vocabulary size in a tokenizer for an End-to-End ASR system [10.70500939394669]
Byte Pair Piece(BPE)やWordPieceのようなトークン化アルゴリズムは、音声認識システムの全体的なトレーニングプロセスで使用されるトークンを特定するのに人気がある。
LibriSpeech 100 時間セットの実験を通して,トークンの数を慎重に選択することで,エンドツーエンドの ASR システムの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:21Z) - Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。
本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T08:25:37Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Incorporating Context into Subword Vocabularies [3.22352610570206]
SaGeは、語彙生成フェーズでコンテキスト化されたシグナルを焼くことによって、下流での使用のためにサブワードを調整するトークンライザである。
SaGeはトークンコンテキストの凝集性を維持するために、現在の広く普及しているトークン化ツールよりも優れた仕事をしていることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:22:59Z) - Improving Tokenisation by Alternative Treatment of Spaces [7.596737214110957]
空間は常に個々のトークンとして扱われる別のトークン化アプローチを実験する。
修正アルゴリズムにより、下流のNLPタスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T13:22:30Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。