論文の概要: Comparing Variation in Tokenizer Outputs Using a Series of Problematic
and Challenging Biomedical Sentences
- arxiv url: http://arxiv.org/abs/2305.08787v1
- Date: Mon, 15 May 2023 16:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:49:19.568161
- Title: Comparing Variation in Tokenizer Outputs Using a Series of Problematic
and Challenging Biomedical Sentences
- Title(参考訳): 問題文と課題文を用いたトークン出力のばらつきの比較
- Authors: Christopher Meaney, Therese A Stukel, Peter C Austin, Michael Escobar
- Abstract要約: 本研究の目的は, バイオメディカルな一連の文章に適用した場合に, トークン化剤の出力の変動について検討することである。
本研究で比較したトークン化剤は, NLTKホワイトスペース・トークン化剤, NLTKペン・ツリーバンク・トークン化剤, Spacy and SciSpacyトークン化剤, Stanza/Stanza-Craftトークン化剤, UDPipeトークン化剤, R-tokenizersである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background & Objective: Biomedical text data are increasingly available for
research. Tokenization is an initial step in many biomedical text mining
pipelines. Tokenization is the process of parsing an input biomedical sentence
(represented as a digital character sequence) into a discrete set of word/token
symbols, which convey focused semantic/syntactic meaning. The objective of this
study is to explore variation in tokenizer outputs when applied across a series
of challenging biomedical sentences.
Method: Diaz [2015] introduce 24 challenging example biomedical sentences for
comparing tokenizer performance. In this study, we descriptively explore
variation in outputs of eight tokenizers applied to each example biomedical
sentence. The tokenizers compared in this study are the NLTK white space
tokenizer, the NLTK Penn Tree Bank tokenizer, Spacy and SciSpacy tokenizers,
Stanza/Stanza-Craft tokenizers, the UDPipe tokenizer, and R-tokenizers.
Results: For many examples, tokenizers performed similarly effectively;
however, for certain examples, there were meaningful variation in returned
outputs. The white space tokenizer often performed differently than other
tokenizers. We observed performance similarities for tokenizers implementing
rule-based systems (e.g. pattern matching and regular expressions) and
tokenizers implementing neural architectures for token classification.
Oftentimes, the challenging tokens resulting in the greatest variation in
outputs, are those words which convey substantive and focused
biomedical/clinical meaning (e.g. x-ray, IL-10, TCR/CD3, CD4+ CD8+, and
(Ca2+)-regulated).
Conclusion: When state-of-the-art, open-source tokenizers from Python and R
were applied to a series of challenging biomedical example sentences, we
observed subtle variation in the returned outputs.
- Abstract(参考訳): background & Objective: バイオメディカルテキストデータの研究がますます進んでいる。
トークン化は多くのバイオメディカルテキストマイニングパイプラインの最初のステップである。
トークン化(英: tokenization)とは、入力された生物医学的な文(デジタル文字列として表される)を単語/単語記号の離散セットに解析するプロセスである。
本研究の目的は, 一連の挑戦的生体医学的文に適用された場合のトークン出力の変動を検討することである。
方法:diaz [2015] トークン化の性能を比較するために、24の挑戦的なバイオメディカルな文章を紹介します。
本研究では,各例の生体医学的文に適用する8つのトークン化剤の出力変動を記述的に検討する。
比較対象はnltk white space tokenizer, nltk penn tree tokenizer, spacy and scispacy tokenizers, stanza/stanza-craft tokenizers, udpipe tokenizer, r-tokenizersである。
結果: 多くの例では、トークン化器も同様に効果的に動作するが、ある例では返却出力に有意な変動があった。
ホワイトスペーストークン化器は、しばしば他のトークン化器とは異なる動作をする。
規則ベースのシステム(パターンマッチングや正規表現など)を実装するトークンライザと、トークン分類のためのニューラルネットワークを実装するトークンライザのパフォーマンス類似性を観察した。
しばしば、アウトプットの最大の変化をもたらす挑戦的なトークンは、実質的で焦点を絞った生体医学的・臨床的意味(例えば、x線、IL-10、TCR/CD3、CD4+ CD8+、Ca2+)を伝達する単語である。
結論: Python と R の最先端でオープンソースのトークン化ツールを,一連の挑戦的なバイオメディカルな例文に適用すると,出力の微妙な変動が観察された。
関連論文リスト
- Tokenization Is More Than Compression [15.689084780238597]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野から来ており、BPEはテキストを比較的少数のトークンに凝縮する能力に由来することが示唆されている。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。
本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T08:25:37Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - Extracting Grammars from a Neural Network Parser for Anomaly Detection
in Unknown Formats [79.6676793507792]
強化学習は、ある未知のフォーマットで文を解析するために、人工知能を訓練する技術として、最近約束されている。
本稿では、ニューラルネットワークから生成規則を抽出し、これらの規則を用いて、ある文が名目か異常かを決定する手順を提案する。
論文 参考訳(メタデータ) (2021-07-30T23:10:24Z) - A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis [1.9694608733361543]
感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
論文 参考訳(メタデータ) (2021-06-03T17:24:31Z) - Automating the Compilation of Potential Core-Outcomes for Clinical
Trials [0.0]
本論文では, 自然言語処理を応用した自動化手法について, 臨床試験のコアとなる成果について述べる。
BioBERTに加えて、エンコーダ出力の埋め込み表現のみを利用する教師なしの機能ベースのアプローチが利用された。
この方法は、BioBERTモデルの学習した埋め込みから得られた各トークンのドメイン固有のコンテキストと、文の類似性のより安定したメトリックの両方を利用することができました。
論文 参考訳(メタデータ) (2021-01-11T18:14:49Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。