論文の概要: Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers
- arxiv url: http://arxiv.org/abs/2210.05481v1
- Date: Tue, 11 Oct 2022 14:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:49:39.708736
- Title: Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers
- Title(参考訳): ホワイトスペースより優れている:カスタムトークンを伴わない言語のための情報検索
- Authors: Odunayo Ogundepo, Xinyu Zhang, and Jimmy Lin
- Abstract要約: 語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
- 参考スコア(独自算出の注目度): 48.036317742487796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization is a crucial step in information retrieval, especially for
lexical matching algorithms, where the quality of indexable tokens directly
impacts the effectiveness of a retrieval system. Since different languages have
unique properties, the design of the tokenization algorithm is usually
language-specific and requires at least some lingustic knowledge. However, only
a handful of the 7000+ languages on the planet benefit from specialized,
custom-built tokenization algorithms, while the other languages are stuck with
a "default" whitespace tokenizer, which cannot capture the intricacies of
different languages. To address this challenge, we propose a different approach
to tokenization for lexical matching retrieval algorithms (e.g., BM25): using
the WordPiece tokenizer, which can be built automatically from unsupervised
data. We test the approach on 11 typologically diverse languages in the MrTyDi
collection: results show that the mBERT tokenizer provides strong relevance
signals for retrieval "out of the box", outperforming whitespace tokenization
on most languages. In many cases, our approach also improves retrieval
effectiveness when combined with existing custom-built tokenizers.
- Abstract(参考訳): トークン化は情報検索において重要なステップであり、特に語彙マッチングアルゴリズムではインデックス可能なトークンの品質が検索システムの有効性に直接影響を与える。
異なる言語にはユニークな特性があるため、トークン化アルゴリズムの設計は通常言語固有のものであり、少なくともいくつかの言語知識を必要とする。
しかし、地球上の7000以上の言語のうち、特殊でカスタム構築されたトークン化アルゴリズムの恩恵を受けるのはわずかである一方、他の言語は、異なる言語の複雑さを捉えることができない"デフォルト"ホワイトスペーストークン化器で立ち往生している。
この課題に対処するために,辞書マッチング検索アルゴリズム(例えば bm25): 教師なしデータから自動構築可能なワードピーストークン化器を使用するための,別の手法を提案する。
我々は,MrTyDiコレクションの11言語に対して,そのアプローチを検証した。その結果,mBERTトークン化器は,ほとんどの言語において,ホワイトスペーストークン化よりも優れた「アウト・オブ・ザ・ボックス」を検索するための強い関連信号を提供することがわかった。
多くの場合、既存のカスタムビルドトークン化ツールと組み合わせることで、検索効率も向上する。
関連論文リスト
- Egalitarian Language Representation in Language Models: It All Begins with Tokenizers [0.0]
すべてのトークンライザが、Tamil、Sinhala、Hindiといった複雑なスクリプト言語に対して公正な表現を提供するわけではないことを示す。
本稿では,Grapheme Pair と呼ばれるグラフエムを組み込むことにより,Byte Pair アルゴリズムの改良を提案する。
実験の結果, 文字抽出は複雑なスクリプトに対して, バイトレベルのトークン化器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T19:05:37Z) - Constructing a BPE Tokenization DFA [0.0]
多くの自然言語処理システムは、オープン語彙問題に対処するためにテキストのトークン化を操作している。
本稿では,一般的なバイトペア符号化技術によって生成されるトークン化を直接操作するために設計された決定論的有限オートマトンを効率的に構築するためのアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2024-05-13T11:59:24Z) - How do different tokenizers perform on downstream tasks in scriptio
continua languages?: A case study in Japanese [4.259342268820457]
本稿では,単語間に明示的な空間が存在しないスクリプティカル連続言語において,トークン化剤が事前学習言語モデル(PLM)の下流性能に与える影響について検討する。
このような言語のトークン化子は、しばしば形態解析器とサブワードトークン化器から構成され、全ての可能なペアについて包括的な研究を行う必要がある。
我々は、幅広いトークンのセットを訓練し、それぞれを用いてPLMを構築し、幅広いタスクで下流のパフォーマンスを測定する。
論文 参考訳(メタデータ) (2023-06-16T01:22:32Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Improving Tokenisation by Alternative Treatment of Spaces [7.596737214110957]
空間は常に個々のトークンとして扱われる別のトークン化アプローチを実験する。
修正アルゴリズムにより、下流のNLPタスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T13:22:30Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。