論文の概要: TransLIST: A Transformer-Based Linguistically Informed Sanskrit
Tokenizer
- arxiv url: http://arxiv.org/abs/2210.11753v1
- Date: Fri, 21 Oct 2022 06:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:34:26.212880
- Title: TransLIST: A Transformer-Based Linguistically Informed Sanskrit
Tokenizer
- Title(参考訳): translist: トランスフォーマーベースの言語的インフォームドサンスクリットトークン化器
- Authors: Jivnesh Sandhan, Rathin Singha, Narein Rao, Suvendu Samanta, Laxmidhar
Behera and Pawan Goyal
- Abstract要約: サンスクリットワードアルゴリズム(SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに不可欠である。
我々はTransLIST(Transformer based Linguistically Informed Sanskrit Tokenizer)を提案する。
TransLISTは、SWS特有のサンディー現象を考慮した潜在単語情報と共に文字入力を符号化する。
- 参考スコア(独自算出の注目度): 11.608920658638976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sanskrit Word Segmentation (SWS) is essential in making digitized texts
available and in deploying downstream tasks. It is, however, non-trivial
because of the sandhi phenomenon that modifies the characters at the word
boundaries, and needs special treatment. Existing lexicon driven approaches for
SWS make use of Sanskrit Heritage Reader, a lexicon-driven shallow parser, to
generate the complete candidate solution space, over which various methods are
applied to produce the most valid solution. However, these approaches fail
while encountering out-of-vocabulary tokens. On the other hand, purely
engineering methods for SWS have made use of recent advances in deep learning,
but cannot make use of the latent word information on availability.
To mitigate the shortcomings of both families of approaches, we propose
Transformer based Linguistically Informed Sanskrit Tokenizer (TransLIST)
consisting of (1) a module that encodes the character input along with
latent-word information, which takes into account the sandhi phenomenon
specific to SWS and is apt to work with partial or no candidate solutions, (2)
a novel soft-masked attention to prioritize potential candidate words and (3) a
novel path ranking algorithm to rectify the corrupted predictions. Experiments
on the benchmark datasets for SWS show that TransLIST outperforms the current
state-of-the-art system by an average 7.2 points absolute gain in terms of
perfect match (PM) metric. The codebase and datasets are publicly available at
https://github.com/rsingha108/TransLIST
- Abstract(参考訳): Sanskrit Word Segmentation (SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに必要である。
しかし、単語境界における文字を修飾し、特別な処理を必要とするサンディー現象のため、これは非自明である。
既存のレキシコン駆動によるswsのアプローチでは、レキシコン駆動の浅いパーサであるsanskrit heritage readerを使用して、最も有効なソリューションを生成するために様々な方法が適用される完全な候補解空間を生成する。
しかし、これらのアプローチは語彙外トークンに遭遇しながら失敗する。
一方、SWSの純粋に工学的な手法は、近年のディープラーニングの進歩を生かしているが、可用性に関する潜在語情報を利用することはできない。
To mitigate the shortcomings of both families of approaches, we propose Transformer based Linguistically Informed Sanskrit Tokenizer (TransLIST) consisting of (1) a module that encodes the character input along with latent-word information, which takes into account the sandhi phenomenon specific to SWS and is apt to work with partial or no candidate solutions, (2) a novel soft-masked attention to prioritize potential candidate words and (3) a novel path ranking algorithm to rectify the corrupted predictions.
swsのベンチマークデータセットに関する実験では、translistが現在の最先端システムよりも平均7.2ポイントの完全なマッチ(pm)メトリックで絶対ゲインを上回っていることが示されている。
コードベースとデータセットはhttps://github.com/rsingha108/TransLISTで公開されている。
関連論文リスト
- CharSS: Character-Level Transformer Model for Sanskrit Word Segmentation [39.08623113730563]
インド語のサブワードトークンは本質的に意味を持ち、それらを分離することでNLPタスクを強化することができる。
我々はサンスクリット語(CharSS)の文字レベル変換モデルを利用する新しい手法を提案する。
提案手法の性能を既存手法と比較するために,3つのベンチマークデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-07-08T18:50:13Z) - TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Mining Word Boundaries in Speech as Naturally Annotated Word
Segmentation Data [41.494096583913105]
中国語単語セグメンテーション(CWS)の自然な注釈付きデータの探索に触発されたこの研究は、パラレル音声/テキストデータから単語境界を抽出することを提案する。
まず、実験で使用したCWSデータに関連する2つのインターネットソースから、並列音声/テキストデータを収集する。
隣接する文字間の停止時間に応じて単語境界を決定するための文字レベルのアライメントと簡単なルールを設計する。
論文 参考訳(メタデータ) (2022-10-31T08:02:21Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。