論文の概要: Historic Scripts to Modern Vision: A Novel Dataset and A VLM Framework for Transliteration of Modi Script to Devanagari
- arxiv url: http://arxiv.org/abs/2503.13060v2
- Date: Tue, 25 Mar 2025 05:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:13:50.538089
- Title: Historic Scripts to Modern Vision: A Novel Dataset and A VLM Framework for Transliteration of Modi Script to Devanagari
- Title(参考訳): 歴史スクリプトから現代ビジョンへ:モディスクリプトからデヴァナガリへの翻訳のための新しいデータセットとVLMフレームワーク
- Authors: Harshal Kausadikar, Tanvi Kale, Onkar Susladkar, Sparsh Mittal,
- Abstract要約: 中世インドでは、マラティア語はモディ文字を用いて書かれた。
約4000万件の文書が不調で、まだ翻訳されていない。
私たちの作品は、手書きのモディ文字から手書きのデヴァナガリ文字への直訳を初めて行った作品です。
- 参考スコア(独自算出の注目度): 2.468658581089448
- License:
- Abstract: In medieval India, the Marathi language was written using the Modi script. The texts written in Modi script include extensive knowledge about medieval sciences, medicines, land records and authentic evidence about Indian history. Around 40 million documents are in poor condition and have not yet been transliterated. Furthermore, only a few experts in this domain can transliterate this script into English or Devanagari. Most of the past research predominantly focuses on individual character recognition. A system that can transliterate Modi script documents to Devanagari script is needed. We propose the MoDeTrans dataset, comprising 2,043 images of Modi script documents accompanied by their corresponding textual transliterations in Devanagari. We further introduce MoScNet (\textbf{Mo}di \textbf{Sc}ript \textbf{Net}work), a novel Vision-Language Model (VLM) framework for transliterating Modi script images into Devanagari text. MoScNet leverages Knowledge Distillation, where a student model learns from a teacher model to enhance transliteration performance. The final student model of MoScNet has better performance than the teacher model while having 163$\times$ lower parameters. Our work is the first to perform direct transliteration from the handwritten Modi script to the Devanagari script. MoScNet also shows competitive results on the optical character recognition (OCR) task.
- Abstract(参考訳): 中世インドでは、マラティア語はモディ文字を用いて書かれた。
モディ文字で書かれたテキストには、中世の科学、医学、土地の記録、そしてインド史に関する真正な証拠に関する広範な知識が含まれている。
約4000万件の文書が不調で、まだ翻訳されていない。
さらに、本書を英語やデヴァナガリに翻訳できる専門家はごくわずかである。
過去の研究の大部分は、個々の文字認識に重点を置いている。
モディ文字の文書をデヴァナガリ文字に翻訳するシステムが必要である。
そこで本研究では,Deadanagari における文の書き起こしを伴う Modi スクリプト文書の2,043 枚の画像からなる MoDeTrans データセットを提案する。
さらに,MoScNet(\textbf{Mo}di \textbf{Sc}ript \textbf{Net}work)という,ModiスクリプトイメージをDevanagariテキストに変換する新しいビジョン言語モデル(VLM)フレームワークについても紹介する。
MoScNetは知識蒸留(Knowledge Distillation)を活用し、学生モデルは教師モデルから学習し、音訳性能を向上させる。
MoScNetの最終学生モデルは、教師モデルよりも優れたパフォーマンスを持ち、163$\times$lowパラメータを持っている。
私たちの作品は、手書きのモディ文字から手書きのデヴァナガリ文字への直訳を初めて行った作品です。
MoScNetは光学文字認識(OCR)タスクの競合結果も示す。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
本稿では,トランスリテライト・マージ文字化 (Transliterate-Merge-literation, TransMI) という,シンプルだが効果的な枠組みを提案する。
TransMIは、既存のmPLMとそのトークン化ツールをトレーニングなしで利用することにより、共通のスクリプトに書き起こされるデータの強力なベースラインを作成することができる。
実験の結果,TransMIはmPLMの非翻訳データ処理能力を保ちつつ,翻訳データを効果的に処理し,スクリプト間のクロスリンガル転送を容易にすることを実証した。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - New Results for the Text Recognition of Arabic Maghrib{\=i} Manuscripts
-- Managing an Under-resourced Script [0.0]
アラビア文字Maghrib=iスクリプト専用のHTRモデル開発および微調整のための新しいモードオペラーディを導入・評価する。
いくつかの最先端のHTRモデルの比較は、アラビア語に特化した単語ベースのニューラルアプローチの関連性を示している。
その結果、アラビア文字処理のための新しい視点が開かれ、より一般的には、貧弱な言語処理のためのものである。
論文 参考訳(メタデータ) (2022-11-29T12:21:41Z) - Transfer Learning for Scene Text Recognition in Indian Languages [27.609596088151644]
本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。
インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。
我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
論文 参考訳(メタデータ) (2022-01-10T06:14:49Z) - Experimental Evaluation of Deep Learning models for Marathi Text
Classification [0.0]
CNN, LSTM, ULMFiT, BERT ベースのモデルを, 2つの公開 Marathi テキスト分類データセットで評価する。
CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2021-01-13T06:21:27Z) - Handwritten Script Identification from Text Lines [38.1188690493442]
テキスト行レベルで手書き文書からスクリプトを識別する頑健な手法を提案する。
チェインコードヒストグラム(CCH)と離散フーリエ変換(DFT)を用いて抽出した特徴に基づく。
提案手法は、グジャラート、カンナダ、マラヤラム、オリヤ、タミル、テルグ、ウルドゥーの7文字で書かれた800行の手書きのテキストに対して、ローマ文字とともに実験されている。
論文 参考訳(メタデータ) (2020-09-16T02:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。