論文の概要: TiSpell: A Semi-Masked Methodology for Tibetan Spelling Correction covering Multi-Level Error with Data Augmentation
- arxiv url: http://arxiv.org/abs/2505.08037v2
- Date: Wed, 14 May 2025 04:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 13:24:43.913427
- Title: TiSpell: A Semi-Masked Methodology for Tibetan Spelling Correction covering Multi-Level Error with Data Augmentation
- Title(参考訳): TiSpell: データ拡張による多レベルエラーをカバーしたチベットのスペル補正のためのセミメイド手法
- Authors: Yutong Liu, Feng Xiao, Ziyue Zhang, Yongbin Yu, Cheng Huang, Fan Gao, Xiangxiang Wang, Ma-bao Ban, Manping Fan, Thupten Tsering, Cheng Huang, Gadeng Luosang, Renzeng Duojie, Nyima Tashi,
- Abstract要約: 多レベルのチベット語スペル補正は、統一モデル内の文字レベルと音節レベルのエラーに対処する。
本稿では,ラベルのないテキストを用いたデータ拡張手法を提案する。
文字レベルの誤りと音節レベルの誤りを訂正できる半マスクモデルであるTiSpellを導入する。
- 参考スコア(独自算出の注目度): 14.075703507095238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-level Tibetan spelling correction addresses errors at both the character and syllable levels within a unified model. Existing methods focus mainly on single-level correction and lack effective integration of both levels. Moreover, there are no open-source datasets or augmentation methods tailored for this task in Tibetan. To tackle this, we propose a data augmentation approach using unlabeled text to generate multi-level corruptions, and introduce TiSpell, a semi-masked model capable of correcting both character- and syllable-level errors. Although syllable-level correction is more challenging due to its reliance on global context, our semi-masked strategy simplifies this process. We synthesize nine types of corruptions on clean sentences to create a robust training set. Experiments on both simulated and real-world data demonstrate that TiSpell, trained on our dataset, outperforms baseline models and matches the performance of state-of-the-art approaches, confirming its effectiveness.
- Abstract(参考訳): 多レベルのチベット語スペル補正は、統一モデル内の文字レベルと音節レベルのエラーに対処する。
既存の手法は主に単一レベルの補正に重点を置いており、両方のレベルの効果的な統合が欠如している。
さらに、チベット語でこのタスクに適したオープンソースのデータセットや拡張方法はありません。
これを解決するために、ラベルなしテキストを用いたデータ拡張手法を提案し、文字レベルの誤りと音節レベルの誤りを訂正できる半マスクモデルであるTiSpellを紹介した。
音節レベルの補正は、グローバルな文脈に依存しているため、より難しいが、我々の半マズード戦略は、このプロセスを単純化する。
クリーンな文に9種類の汚職を合成し、堅牢なトレーニングセットを作成します。
シミュレーションデータと実世界のデータの両方の実験では、データセットに基づいてトレーニングされたTiSpellがベースラインモデルを上回っ、最先端のアプローチのパフォーマンスと一致し、その有効性を確認した。
関連論文リスト
- Learning from Mistakes: Self-correct Adversarial Training for Chinese Unnatural Text Correction [6.426690600216749]
不自然なテキスト補正は、文中のスペルエラーや逆転摂動エラーを自動的に検出し、修正することを目的としている。
既存の方法は、ミスを修正するための微調整や敵の訓練に頼っている。
我々はtextbfMIstextbfTakes から textbfLearntextbfIng の自己正逆学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-23T04:58:58Z) - Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - IDoFew: Intermediate Training Using Dual-Clustering in Language Models
for Few Labels Text Classification [24.11420537250414]
変換器からの双方向表現(BERT)は、自然言語処理(NLP)やテキスト分類を含むテキストマイニングタスクにおいて非常に効果的である。
いくつかのタスクは、制限付きラベル付きテキスト分類など、これらのモデルに依然として課題を生じさせる。
擬似ラベルを確実にモデル化する2段階の中間クラスタリングを開発した。
論文 参考訳(メタデータ) (2024-01-08T17:07:37Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Learning from Bootstrapping and Stepwise Reinforcement Reward: A
Semi-Supervised Framework for Text Style Transfer [30.622772801446132]
テキストスタイル転送のための半教師付きフレームワークを提案する。
まず、擬似並列ペアを自動構築し、教師付きで学習プロセスをブートストラップする。
そして、モデルは強化報酬を通じてラベルなしのデータから学習する。
論文 参考訳(メタデータ) (2022-05-19T05:18:06Z) - Adversarial Dual-Student with Differentiable Spatial Warping for
Semi-Supervised Semantic Segmentation [70.2166826794421]
本研究では、教師なしデータ拡張を行うために、微分可能な幾何ワープを提案する。
また,平均教師数を改善するために,新しい対角的二重学習フレームワークを提案する。
我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。
論文 参考訳(メタデータ) (2022-03-05T17:36:17Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - BiSTF: Bilateral-Branch Self-Training Framework for Semi-Supervised
Large-scale Fine-Grained Recognition [28.06659482245647]
半教師付きファイングラインド認識は、データ不均衡、高いクラス間類似性、ドメインミスマッチによる課題である。
本稿では,バイラテラルブランチ・セルフトレーニング・フレームワーク (Bilateral-Branch Self-Training Framework, BiSTF) を提案する。
BiSTFはSemi-iNatデータセット上で既存の最先端SSLよりも優れています。
論文 参考訳(メタデータ) (2021-07-14T15:28:54Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。