論文の概要: A Survey on Vietnamese Document Analysis and Recognition: Challenges and Future Directions
- arxiv url: http://arxiv.org/abs/2506.05061v1
- Date: Thu, 05 Jun 2025 14:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.746578
- Title: A Survey on Vietnamese Document Analysis and Recognition: Challenges and Future Directions
- Title(参考訳): ベトナムの文書分析と認識 : 課題と今後の方向性
- Authors: Anh Le, Thanh Lam, Dung Nguyen,
- Abstract要約: ベトナムの文書分析と認識(DAR)は、デジタル化、情報検索、自動化において重要な分野である。
OCRとNLPの進歩にもかかわらず、ベトナムのテキスト認識は、複雑なダイアクリティカルス、声調の変化、大規模な注釈付きデータセットの欠如により、独特な課題に直面している。
近年,大規模言語モデル (LLM) と視覚言語モデルは,テキスト認識や文書理解において顕著に改善されている。
- 参考スコア(独自算出の注目度): 3.7994176460443208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vietnamese document analysis and recognition (DAR) is a crucial field with applications in digitization, information retrieval, and automation. Despite advancements in OCR and NLP, Vietnamese text recognition faces unique challenges due to its complex diacritics, tonal variations, and lack of large-scale annotated datasets. Traditional OCR methods often struggle with real-world document variations, while deep learning approaches have shown promise but remain limited by data scarcity and generalization issues. Recently, large language models (LLMs) and vision-language models have demonstrated remarkable improvements in text recognition and document understanding, offering a new direction for Vietnamese DAR. However, challenges such as domain adaptation, multimodal learning, and computational efficiency persist. This survey provide a comprehensive review of existing techniques in Vietnamese document recognition, highlights key limitations, and explores how LLMs can revolutionize the field. We discuss future research directions, including dataset development, model optimization, and the integration of multimodal approaches for improved document intelligence. By addressing these gaps, we aim to foster advancements in Vietnamese DAR and encourage community-driven solutions.
- Abstract(参考訳): ベトナムの文書分析と認識(DAR)は、デジタル化、情報検索、自動化において重要な分野である。
OCRとNLPの進歩にもかかわらず、ベトナムのテキスト認識は、複雑なダイアクリティカルス、声調の変化、大規模な注釈付きデータセットの欠如により、独特な課題に直面している。
従来のOCR手法は実世界の文書のバリエーションに苦慮することが多いが、ディープラーニングアプローチは将来性を示しているが、データの不足や一般化の問題によって制限されている。
近年,大規模言語モデル (LLM) と視覚言語モデル (ビジョン言語モデル) はテキスト認識と文書理解において顕著な改善をみせており,ベトナムのDARに新たな方向性を与えている。
しかし、ドメイン適応、マルチモーダル学習、計算効率といった課題は継続する。
この調査はベトナムの文書認識における既存の技術に関する総合的なレビューを提供し、重要な限界を強調し、LLMがいかにこの分野に革命をもたらすかを探る。
本稿では、データセット開発、モデル最適化、文書インテリジェンス改善のためのマルチモーダルアプローチの統合など、今後の研究方向性について論じる。
これらのギャップに対処することで、ベトナムのDARの進歩を促進し、コミュニティ主導のソリューションを促進することを目指している。
関連論文リスト
- Editing Across Languages: A Survey of Multilingual Knowledge Editing [16.700978644147572]
この調査は、MKE(Multilingual Knowledge Editing)に関する最近の研究を体系化する。
MKEは、事実編集が言語全体にわたって確実に一般化されることを保証することに焦点を当てたモデル編集のサブドメインである。
本稿では,パラメータベース,メモリベース,微調整,ハイパーネットワークアプローチを網羅したMKE手法の包括的分類法を提案する。
論文 参考訳(メタデータ) (2025-05-20T14:13:04Z) - Advancing Vietnamese Information Retrieval with Learning Objective and Benchmark [0.24999074238880487]
本研究はベトナム研究コミュニティに情報検索のための新しいベンチマークを提供することを目的としている。
また,ベトナムの埋め込みモデルの学習に使用されるInfoNCE損失関数に基づく新たな目的関数を提案する。
論文 参考訳(メタデータ) (2025-03-10T15:47:01Z) - Vietnamese Legal Information Retrieval in Question-Answering System [0.0]
Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。
しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。
本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
論文 参考訳(メタデータ) (2024-09-05T02:34:05Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Improving Vietnamese Legal Question--Answering System based on Automatic
Data Enrichment [2.56085064991751]
本稿では,ベトナム語記事レベルの検索に基づく法的QAシステムを実装することで,これらの制限を克服しようとしている。
我々の仮説は、ラベル付きデータが制限された状況では、効率的なデータ豊かさが全体的なパフォーマンス向上に役立つというものである。
論文 参考訳(メタデータ) (2023-06-08T00:24:29Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Revealing Weaknesses of Vietnamese Language Models Through Unanswerable
Questions in Machine Reading Comprehension [2.7528170226206443]
本稿では,現在のベトナム語モノリンガルモデルの言語弱さと強みを包括的に分析する。
またベトナムのMachine Readingベンチマークにおけるアーティファクトの存在を明らかにした。
提案した修正は,解決不可能な質問の品質向上に役立つ。
論文 参考訳(メタデータ) (2023-03-16T20:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。