Fugu-MT 論文翻訳(概要): How Important Is Tokenization in French Medical Masked Language Models?

論文の概要: How Important Is Tokenization in French Medical Masked Language Models?

arxiv url: http://arxiv.org/abs/2402.15010v2
Date: Sun, 9 Jun 2024 15:11:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 01:23:27.604696
Title: How Important Is Tokenization in French Medical Masked Language Models?
Title（参考訳）: フランス語医療マスケード言語モデルにおけるトークン化の重要性
Authors: Yanis Labrak, Adrien Bazoge, Beatrice Daille, Mickael Rouvier, Richard Dufour,
Abstract要約: 自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
参考スコア（独自算出の注目度）: 7.866517623371908
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Subword tokenization has become the prevailing standard in the field of natural language processing (NLP) over recent years, primarily due to the widespread utilization of pre-trained language models. This shift began with Byte-Pair Encoding (BPE) and was later followed by the adoption of SentencePiece and WordPiece. While subword tokenization consistently outperforms character and word-level tokenization, the precise factors contributing to its success remain unclear. Key aspects such as the optimal segmentation granularity for diverse tasks and languages, the influence of data sources on tokenizers, and the role of morphological information in Indo-European languages remain insufficiently explored. This is particularly pertinent for biomedical terminology, characterized by specific rules governing morpheme combinations. Despite the agglutinative nature of biomedical terminology, existing language models do not explicitly incorporate this knowledge, leading to inconsistent tokenization strategies for common terms. In this paper, we seek to delve into the complexities of subword tokenization in French biomedical domain across a variety of NLP tasks and pinpoint areas where further enhancements can be made. We analyze classical tokenization algorithms, including BPE and SentencePiece, and introduce an original tokenization strategy that integrates morpheme-enriched word segmentation into existing tokenization methods.
Abstract（参考訳）: 近年,自然言語処理(NLP)分野において,サブワードのトークン化が主流となっている。この変更はByte-Pair Encoding (BPE)から始まり、後にSentencePieceとWordPieceが採用された。サブワードのトークン化は文字や単語レベルのトークン化を一貫して上回っているが、その成功に寄与する正確な要因は不明である。多様なタスクや言語に対する最適セグメンテーションの粒度、データソースのトークン化への影響、インド・ヨーロッパ語における形態情報の役割といった重要な側面はいまだ不十分である。これは特に、形態素の組み合わせを規定する特定の規則によって特徴づけられる生体医学用語に関係している。生物医学用語の凝集的な性質にもかかわらず、既存の言語モデルは、この知識を明示的に含みておらず、共通の用語に対する一貫性のないトークン化戦略をもたらす。本稿では,フランスの生物医学領域におけるサブワードトークン化の複雑さを,様々なNLPタスクやピンポイント領域にまたがって探究する。我々は,BPEやSentencePieceなどの古典的トークン化アルゴリズムを解析し,形態素に富んだ単語セグメンテーションを既存のトークン化手法に統合する独自のトークン化戦略を導入する。

関連論文リスト

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay [4.061135251278187]
トークン化は、形態学的にリッチな言語におけるニューラル言語モデリングのための重要な設計選択である。トルコ語サブワードのトークン化に関する、最初の包括的で原則化された研究を提示する。
論文参考訳（メタデータ） (2026-02-06T18:41:14Z)
Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation [9.23725598061561]
本研究は3つのサブワードパラダイムであるByte Pairを体系的に比較する。 BPE(Overlap BPE)、OBPE(Overlap BPE)、Unigram Language Model(Unigram Language Model)。 OBPEは従来手法よりも強い形態的アライメントとタグ付け精度を実現する。
論文参考訳（メタデータ） (2026-02-04T05:59:25Z)
Tokenization Strategies for Low-Resource Agglutinative Languages in Word2Vec: Case Study on Turkish and Finnish [0.0]
トークン化は凝集言語処理において重要な役割を担っている。本研究は,静的単語埋め込みの品質に及ぼす各種トークン化戦略の影響を評価する。
論文参考訳（メタデータ） (2025-08-27T22:01:11Z)
Comparative analysis of subword tokenization approaches for Indian languages [5.012314384895538]
トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。サブワードトークン化は、単語を小さなサブワード単位に分割することで、このプロセスを強化する。これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。本稿では,SentencePiece,Byte Pair,WordPiece Tokenizationなどのサブワードトークン技術がILに与える影響について検討する。
論文参考訳（メタデータ） (2025-05-22T16:24:37Z)
MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文参考訳（メタデータ） (2025-04-14T15:44:45Z)
Byte BPE Tokenization as an Inverse string Homomorphism [12.885921620444272]
トークン化は文字列とトークンの間の逆準同型として作用することを示す。これは、原言語の文字空間とトークン化された言語のトークン空間が同型であることを示唆している。また、トークン化器から返されるあいまいなトークン化を指す固有トークン化の概念についても検討する。
論文参考訳（メタデータ） (2024-12-04T09:38:11Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文参考訳（メタデータ） (2024-07-11T18:59:21Z)
UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文参考訳（メタデータ） (2024-06-24T07:27:01Z)
Language Model Adaptation to Specialized Domains through Selective Masking based on Genre and Topical Characteristics [4.9639158834745745]
本稿では、ジャンルや話題情報を活用した革新的なマスキング手法を導入し、言語モデルを専門ドメインにカスタマイズする。本手法では,その重要度に基づいて単語を優先順位付けし,マスキング手順を導出するランキング処理を取り入れた。法域内での継続事前学習を用いて行った実験は、英語のLegalGLUEベンチマークにおいて、我々のアプローチの有効性を裏付けている。
論文参考訳（メタデータ） (2024-02-19T10:43:27Z)
UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文参考訳（メタデータ） (2023-07-20T18:08:34Z)
Combining Contrastive Learning and Knowledge Graph Embeddings to develop medical word embeddings for the Italian language [0.0]
本論文は,イタリアの医療領域の未発見ニッチへの埋め込みを改良する試みである。主な目的は、医療用語間の意味的類似性の精度を向上させることである。イタリア語には医学的な文章や制御された語彙が欠けているため、我々は特定の解決法を開発した。
論文参考訳（メタデータ） (2022-11-09T17:12:28Z)
A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文参考訳（メタデータ） (2022-04-22T16:50:49Z)
Clinical Named Entity Recognition using Contextualized Token Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文参考訳（メタデータ） (2021-06-23T18:12:58Z)
Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。 XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文参考訳（メタデータ） (2021-03-15T16:07:42Z)
UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文参考訳（メタデータ） (2020-10-20T15:56:31Z)
Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文参考訳（メタデータ） (2020-04-29T03:34:53Z)
Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文参考訳（メタデータ） (2020-04-07T21:21:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。