論文の概要: Seeing Justice Clearly: Handwritten Legal Document Translation with OCR and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.18004v1
- Date: Fri, 19 Dec 2025 19:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.148611
- Title: Seeing Justice Clearly: Handwritten Legal Document Translation with OCR and Vision-Language Models
- Title(参考訳): OCRとVision-Languageモデルによる手書きの法的文書翻訳
- Authors: Shubham Kumar Nigam, Parjanya Aditya Shukla, Noel Shallum, Arnab Bhattacharya,
- Abstract要約: 手書き文字認識(HTR)と機械翻訳は依然として大きな課題となっている。
従来のOCRシステムは手書き画像からテキストを抽出し、機械翻訳モデルを用いて対象言語に翻訳する。
本研究では,従来のOCR-MTパイプラインの性能を,これらのステージの統合を目的としたビジョン大言語モデルと比較する。
当社のモチベーションは、インドの地方裁判所や高等裁判所の法的記録をデジタル化する、スケーラブルで正確な翻訳システムが必要であることにある。
- 参考スコア(独自算出の注目度): 8.62418063092899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten text recognition (HTR) and machine translation continue to pose significant challenges, particularly for low-resource languages like Marathi, which lack large digitized corpora and exhibit high variability in handwriting styles. The conventional approach to address this involves a two-stage pipeline: an OCR system extracts text from handwritten images, which is then translated into the target language using a machine translation model. In this work, we explore and compare the performance of traditional OCR-MT pipelines with Vision Large Language Models that aim to unify these stages and directly translate handwritten text images in a single, end-to-end step. Our motivation is grounded in the urgent need for scalable, accurate translation systems to digitize legal records such as FIRs, charge sheets, and witness statements in India's district and high courts. We evaluate both approaches on a curated dataset of handwritten Marathi legal documents, with the goal of enabling efficient legal document processing, even in low-resource environments. Our findings offer actionable insights toward building robust, edge-deployable solutions that enhance access to legal information for non-native speakers and legal professionals alike.
- Abstract(参考訳): 手書き文字認識(HTR)や機械翻訳は、特に大きなデジタルコーパスが欠如し、手書きスタイルで高い可変性を示すマラシのような低リソース言語において、大きな課題を呈し続けている。
OCRシステムは手書き画像からテキストを抽出し、機械翻訳モデルを用いてターゲット言語に変換する。
本研究では,従来のOCR-MTパイプラインの性能を,これらの段階を統一することを目的とした視覚大言語モデルと比較し,手書きのテキスト画像をエンドツーエンドのステップで直接翻訳する。
当社のモチベーションは、FIR、チャージシート、およびインドの地方裁判所および高等裁判所における証人証言などの法的記録をデジタル化する、スケーラブルで正確な翻訳システムに対する緊急の要求に基づいています。
低リソース環境においても,効率的な法的文書処理を実現することを目的として,手書きのMarathi法定文書のキュレートされたデータセット上で両手法を評価した。
我々の発見は、非ネイティブ話者や法律専門家の法的情報へのアクセスを高める、堅牢で、エッジにデプロイ可能なソリューションを構築するための実用的な洞察を提供する。
関連論文リスト
- Handwritten Text Recognition for Low Resource Languages [4.4322265742680305]
本稿では,HindiとUrduのテキスト認識技術であるBharatOCRを紹介する。
そこで,視覚変換器(ViT)が視覚特徴を抽出し,変換器(Transformer Decoder)がテキストシーケンスを生成し,事前学習された言語モデル(LM)が出力を改良し,精度,流速,コヒーレンスを向上する。
本研究で導入したカスタムデータセット("Parimal Urdu"と"Parimal Hindi")と2つのパブリックデータセットを用いて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2025-12-01T07:01:52Z) - SERVAL: Surprisingly Effective Zero-Shot Visual Document Retrieval Powered by Large Vision and Language Models [17.85605201420847]
Visual Document Retrieval (VDR) は通常、文書イメージを直接埋め込むために訓練された特殊なバイエンコーダを使用してテキストから画像の検索を行う。
我々はゼロショット生成・符号化パイプラインを再考し、まず視覚言語モデルを用いて各文書画像の詳細なテキスト記述を生成する。
ViDoRe-v2ベンチマークでは、63.4%のnDCG@5に達し、マルチベクトルビジュアルドキュメントエンコーダで最強である。
論文 参考訳(メタデータ) (2025-09-18T21:11:13Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text
Comprehension [6.442209435258797]
LegalRelectraは、混合ドメイン法と医療コーパスに基づいて訓練された法律ドメイン言語モデルである。
トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。
論文 参考訳(メタデータ) (2022-12-16T00:15:14Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Lacuna Reconstruction: Self-supervised Pre-training for Low-Resource
Historical Document Transcription [25.76860672652937]
また,スクラッチから訓練した同じ教師付きモデルに対して,30行の画像書き起こしで認識精度を有意に向上させることを示した。
我々のマスク付き言語モデルスタイルの事前学習戦略では、モデルが同じ行内からサンプリングされた邪魔者から真のマスク付き視覚表現を識別できるように訓練され、堅牢な文脈化された言語表現の学習が促進される。
論文 参考訳(メタデータ) (2021-12-16T08:28:26Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。