論文の概要: Comparing Variation in Tokenizer Outputs Using a Series of Problematic
and Challenging Biomedical Sentences
- arxiv url: http://arxiv.org/abs/2305.08787v1
- Date: Mon, 15 May 2023 16:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:49:19.568161
- Title: Comparing Variation in Tokenizer Outputs Using a Series of Problematic
and Challenging Biomedical Sentences
- Title(参考訳): 問題文と課題文を用いたトークン出力のばらつきの比較
- Authors: Christopher Meaney, Therese A Stukel, Peter C Austin, Michael Escobar
- Abstract要約: 本研究の目的は, バイオメディカルな一連の文章に適用した場合に, トークン化剤の出力の変動について検討することである。
本研究で比較したトークン化剤は, NLTKホワイトスペース・トークン化剤, NLTKペン・ツリーバンク・トークン化剤, Spacy and SciSpacyトークン化剤, Stanza/Stanza-Craftトークン化剤, UDPipeトークン化剤, R-tokenizersである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background & Objective: Biomedical text data are increasingly available for
research. Tokenization is an initial step in many biomedical text mining
pipelines. Tokenization is the process of parsing an input biomedical sentence
(represented as a digital character sequence) into a discrete set of word/token
symbols, which convey focused semantic/syntactic meaning. The objective of this
study is to explore variation in tokenizer outputs when applied across a series
of challenging biomedical sentences.
Method: Diaz [2015] introduce 24 challenging example biomedical sentences for
comparing tokenizer performance. In this study, we descriptively explore
variation in outputs of eight tokenizers applied to each example biomedical
sentence. The tokenizers compared in this study are the NLTK white space
tokenizer, the NLTK Penn Tree Bank tokenizer, Spacy and SciSpacy tokenizers,
Stanza/Stanza-Craft tokenizers, the UDPipe tokenizer, and R-tokenizers.
Results: For many examples, tokenizers performed similarly effectively;
however, for certain examples, there were meaningful variation in returned
outputs. The white space tokenizer often performed differently than other
tokenizers. We observed performance similarities for tokenizers implementing
rule-based systems (e.g. pattern matching and regular expressions) and
tokenizers implementing neural architectures for token classification.
Oftentimes, the challenging tokens resulting in the greatest variation in
outputs, are those words which convey substantive and focused
biomedical/clinical meaning (e.g. x-ray, IL-10, TCR/CD3, CD4+ CD8+, and
(Ca2+)-regulated).
Conclusion: When state-of-the-art, open-source tokenizers from Python and R
were applied to a series of challenging biomedical example sentences, we
observed subtle variation in the returned outputs.
- Abstract(参考訳): background & Objective: バイオメディカルテキストデータの研究がますます進んでいる。
トークン化は多くのバイオメディカルテキストマイニングパイプラインの最初のステップである。
トークン化(英: tokenization)とは、入力された生物医学的な文(デジタル文字列として表される)を単語/単語記号の離散セットに解析するプロセスである。
本研究の目的は, 一連の挑戦的生体医学的文に適用された場合のトークン出力の変動を検討することである。
方法:diaz [2015] トークン化の性能を比較するために、24の挑戦的なバイオメディカルな文章を紹介します。
本研究では,各例の生体医学的文に適用する8つのトークン化剤の出力変動を記述的に検討する。
比較対象はnltk white space tokenizer, nltk penn tree tokenizer, spacy and scispacy tokenizers, stanza/stanza-craft tokenizers, udpipe tokenizer, r-tokenizersである。
結果: 多くの例では、トークン化器も同様に効果的に動作するが、ある例では返却出力に有意な変動があった。
ホワイトスペーストークン化器は、しばしば他のトークン化器とは異なる動作をする。
規則ベースのシステム(パターンマッチングや正規表現など)を実装するトークンライザと、トークン分類のためのニューラルネットワークを実装するトークンライザのパフォーマンス類似性を観察した。
しばしば、アウトプットの最大の変化をもたらす挑戦的なトークンは、実質的で焦点を絞った生体医学的・臨床的意味(例えば、x線、IL-10、TCR/CD3、CD4+ CD8+、Ca2+)を伝達する単語である。
結論: Python と R の最先端でオープンソースのトークン化ツールを,一連の挑戦的なバイオメディカルな例文に適用すると,出力の微妙な変動が観察された。
関連論文リスト
- Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization [3.0023392750520883]
サブワードトークン化手法の一部として形態素セグメンテーション法が利用できるかどうかを考察する。
予測結果から, 形態的セグメンテーションは, 一般的に使われているサブワードトークン化剤と同じくらい有効である可能性が示唆された。
バランスの取れたトークンの頻度分布を持つトークン化器は、よりうまく機能する傾向にある。
論文 参考訳(メタデータ) (2024-10-19T04:06:09Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal [58.29382184006158]
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。
本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T08:25:37Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - Extracting Grammars from a Neural Network Parser for Anomaly Detection
in Unknown Formats [79.6676793507792]
強化学習は、ある未知のフォーマットで文を解析するために、人工知能を訓練する技術として、最近約束されている。
本稿では、ニューラルネットワークから生成規則を抽出し、これらの規則を用いて、ある文が名目か異常かを決定する手順を提案する。
論文 参考訳(メタデータ) (2021-07-30T23:10:24Z) - A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis [1.9694608733361543]
感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
論文 参考訳(メタデータ) (2021-06-03T17:24:31Z) - Automating the Compilation of Potential Core-Outcomes for Clinical
Trials [0.0]
本論文では, 自然言語処理を応用した自動化手法について, 臨床試験のコアとなる成果について述べる。
BioBERTに加えて、エンコーダ出力の埋め込み表現のみを利用する教師なしの機能ベースのアプローチが利用された。
この方法は、BioBERTモデルの学習した埋め込みから得られた各トークンのドメイン固有のコンテキストと、文の類似性のより安定したメトリックの両方を利用することができました。
論文 参考訳(メタデータ) (2021-01-11T18:14:49Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。