Fugu-MT 論文翻訳(概要): TransLIST: A Transformer-Based Linguistically Informed Sanskrit Tokenizer

論文の概要: TransLIST: A Transformer-Based Linguistically Informed Sanskrit Tokenizer

arxiv url: http://arxiv.org/abs/2210.11753v1
Date: Fri, 21 Oct 2022 06:15:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 14:34:26.212880
Title: TransLIST: A Transformer-Based Linguistically Informed Sanskrit Tokenizer
Title（参考訳）: translist: トランスフォーマーベースの言語的インフォームドサンスクリットトークン化器
Authors: Jivnesh Sandhan, Rathin Singha, Narein Rao, Suvendu Samanta, Laxmidhar Behera and Pawan Goyal
Abstract要約: サンスクリットワードアルゴリズム(SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに不可欠である。我々はTransLIST(Transformer based Linguistically Informed Sanskrit Tokenizer)を提案する。 TransLISTは、SWS特有のサンディー現象を考慮した潜在単語情報と共に文字入力を符号化する。
参考スコア（独自算出の注目度）: 11.608920658638976
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sanskrit Word Segmentation (SWS) is essential in making digitized texts available and in deploying downstream tasks. It is, however, non-trivial because of the sandhi phenomenon that modifies the characters at the word boundaries, and needs special treatment. Existing lexicon driven approaches for SWS make use of Sanskrit Heritage Reader, a lexicon-driven shallow parser, to generate the complete candidate solution space, over which various methods are applied to produce the most valid solution. However, these approaches fail while encountering out-of-vocabulary tokens. On the other hand, purely engineering methods for SWS have made use of recent advances in deep learning, but cannot make use of the latent word information on availability. To mitigate the shortcomings of both families of approaches, we propose Transformer based Linguistically Informed Sanskrit Tokenizer (TransLIST) consisting of (1) a module that encodes the character input along with latent-word information, which takes into account the sandhi phenomenon specific to SWS and is apt to work with partial or no candidate solutions, (2) a novel soft-masked attention to prioritize potential candidate words and (3) a novel path ranking algorithm to rectify the corrupted predictions. Experiments on the benchmark datasets for SWS show that TransLIST outperforms the current state-of-the-art system by an average 7.2 points absolute gain in terms of perfect match (PM) metric. The codebase and datasets are publicly available at https://github.com/rsingha108/TransLIST
Abstract（参考訳）: Sanskrit Word Segmentation (SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに必要である。しかし、単語境界における文字を修飾し、特別な処理を必要とするサンディー現象のため、これは非自明である。既存のレキシコン駆動によるswsのアプローチでは、レキシコン駆動の浅いパーサであるsanskrit heritage readerを使用して、最も有効なソリューションを生成するために様々な方法が適用される完全な候補解空間を生成する。しかし、これらのアプローチは語彙外トークンに遭遇しながら失敗する。一方、SWSの純粋に工学的な手法は、近年のディープラーニングの進歩を生かしているが、可用性に関する潜在語情報を利用することはできない。 To mitigate the shortcomings of both families of approaches, we propose Transformer based Linguistically Informed Sanskrit Tokenizer (TransLIST) consisting of (1) a module that encodes the character input along with latent-word information, which takes into account the sandhi phenomenon specific to SWS and is apt to work with partial or no candidate solutions, (2) a novel soft-masked attention to prioritize potential candidate words and (3) a novel path ranking algorithm to rectify the corrupted predictions. swsのベンチマークデータセットに関する実験では、translistが現在の最先端システムよりも平均7.2ポイントの完全なマッチ(pm)メトリックで絶対ゲインを上回っていることが示されている。コードベースとデータセットはhttps://github.com/rsingha108/TransLISTで公開されている。

関連論文リスト

Beyond Subtokens: A Rich Character Embedding for Low-resource and Morphologically Complex Languages [5.338837380875301]
word2vec、BERT、GPTといったトークン化とサブトークン化に基づくモデルは、自然言語処理における最先端のモデルである。本稿では,文字列から直接単語ベクトルを計算し,意味情報と構文情報を統合することを提案する。 BERTのようなコンテキストベースの大規模言語モデルと、低リソースおよび形態学的にリッチな言語のための word2vec のような小さなモデルの両方のパフォーマンスを改善する可能性がある。
論文参考訳（メタデータ） (2026-02-24T21:16:08Z)
Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文参考訳（メタデータ） (2025-08-19T22:17:42Z)
PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文参考訳（メタデータ） (2025-02-24T19:48:00Z)
Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。重要なアルゴリズム設計選択が下流モデルの性能に与える影響について検討する。
論文参考訳（メタデータ） (2025-02-21T09:58:54Z)
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文参考訳（メタデータ） (2025-02-05T15:33:00Z)
CharSS: Character-Level Transformer Model for Sanskrit Word Segmentation [39.08623113730563]
インド語のサブワードトークンは本質的に意味を持ち、それらを分離することでNLPタスクを強化することができる。我々はサンスクリット語(CharSS)の文字レベル変換モデルを利用する新しい手法を提案する。提案手法の性能を既存手法と比較するために,3つのベンチマークデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2024-07-08T18:50:13Z)
Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation [14.826948179996695]
サブワードトークン化はニューラル機械翻訳(NMT)モデルにおける語彙構築の一般的な方法である。隠れ状態次元の異なる様々なスケールの文脈情報を学習するマルチスケールコンテキスト化(MSC)手法を提案する。実験により、MSCはサブワードベースおよび他のバイトベースの手法を多言語およびドメイン外のシナリオで大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-05-29T17:19:04Z)
TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文参考訳（メタデータ） (2024-05-16T09:08:09Z)
Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。 SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文参考訳（メタデータ） (2024-03-26T09:25:57Z)
Integrating Bidirectional Long Short-Term Memory with Subword Embedding for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文参考訳（メタデータ） (2023-06-26T11:35:47Z)
Mining Word Boundaries in Speech as Naturally Annotated Word Segmentation Data [41.494096583913105]
中国語単語セグメンテーション(CWS)の自然な注釈付きデータの探索に触発されたこの研究は、パラレル音声/テキストデータから単語境界を抽出することを提案する。まず、実験で使用したCWSデータに関連する2つのインターネットソースから、並列音声/テキストデータを収集する。隣接する文字間の停止時間に応じて単語境界を決定するための文字レベルのアライメントと簡単なルールを設計する。
論文参考訳（メタデータ） (2022-10-31T08:02:21Z)
A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文参考訳（メタデータ） (2022-04-22T16:50:49Z)
Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文参考訳（メタデータ） (2021-12-20T13:04:18Z)
Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文参考訳（メタデータ） (2021-08-23T09:05:18Z)
Fake it Till You Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。 3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文参考訳（メタデータ） (2021-01-30T18:59:43Z)
Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。そこで本研究では,S-LSTMの深度適応機構を提案する。
論文参考訳（メタデータ） (2020-02-29T03:09:55Z)
TextScanner: Reading Characters in Order for Robust Scene Text Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文参考訳（メタデータ） (2019-12-28T07:52:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。