論文の概要: Towards Khmer Scene Document Layout Detection
- arxiv url: http://arxiv.org/abs/2603.00707v1
- Date: Sat, 28 Feb 2026 15:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.331404
- Title: Towards Khmer Scene Document Layout Detection
- Title(参考訳): Khmer Scene Document Layout Detectionに向けて
- Authors: Marry Kong, Rina Buoy, Sovisal Chenda, Nguonly Taing, Masakazu Iwamura, Koichi Kise,
- Abstract要約: 本研究は,Khmerシーンの文書レイアウト検出に関する総合的研究である。
我々は,(1)Khmerのシーンレイアウトに特化して,ロバストなトレーニングとベンチマークのデータセット,(2)リアルなシーン文書を合成してトレーニングデータをスケール可能なオープンソースドキュメント拡張ツール,(3)オブジェクト指向境界ボックス(OBB)を用いたYOLOアーキテクチャを用いたレイアウト検出ベースラインの3つの重要な要素からなる新しいフレームワークを寄贈する。
- 参考スコア(独自算出の注目度): 3.5477182055025107
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While document layout analysis for Latin scripts has advanced significantly, driven by the advent of large multimodal models (LMMs), progress for the Khmer language remains constrained because of the scarcity of annotated training data. This gap is particularly acute for scene documents, where perspective distortions and complex backgrounds challenge traditional methods. Given the structural complexities of Khmer script, such as diacritics and multi-layer character stacking, existing Latin-based layout analysis models fail to accurately delineate semantic layout units, particularly for dense text regions (e.g., list items). In this paper, we present the first comprehensive study on Khmer scene document layout detection. We contribute a novel framework comprising three key elements: (1) a robust training and benchmarking dataset specifically for Khmer scene layouts; (2) an open-source document augmentation tool capable of synthesizing realistic scene documents to scale training data; and (3) layout detection baselines utilizing YOLO-based architectures with oriented bounding boxes (OBB) to handle geometric distortions. To foster further research in the Khmer document analysis and recognition (DAR) community, we release our models, code, and datasets in this gated repository (in review).
- Abstract(参考訳): ラテン文字の文書レイアウト解析は、大規模マルチモーダルモデル(LMM)の出現によって大きく進歩しているが、注釈付きトレーニングデータの不足により、クメール語の進行は制限されている。
このギャップは、視点の歪みや複雑な背景が従来の手法に挑戦するシーン文書にとって特に深刻である。
ダイアクリティカルスや多層文字の積み重ねなど、クメール文字の構造的な複雑さを考えると、既存のラテン系レイアウト分析モデルは、特に高密度テキスト領域(例えばリスト項目)において、意味的レイアウト単位を正確に記述することができない。
本稿では,Khmerシーンの文書レイアウト検出に関する総合的研究を行う。
我々は,(1)Khmerのシーンレイアウトに特化して,ロバストなトレーニングとベンチマークのデータセット,(2)リアルなシーン文書を合成してトレーニングデータをスケール可能なオープンソースドキュメント拡張ツール,(3)オブジェクト指向境界ボックス(OBB)を用いたYOLOアーキテクチャを用いたレイアウト検出ベースラインの3つの重要な要素からなる新しいフレームワークを寄贈する。
Khmerドキュメント分析と認識(DAR)コミュニティにおけるさらなる研究を促進するため、当社では、このゲートドリポジトリ(レビュー)でモデル、コード、データセットをリリースしています。
関連論文リスト
- Structure-Aware Text Recognition for Ancient Greek Critical Editions [16.43811675687955]
本稿では,古代ギリシアの批判版に対する構造対応テキスト認識について検討する。
TEI/XMLソースから生成される185,000ページ画像の大規模な合成コーパスを,タイポグラフィとレイアウトの変動を制御して導入する。
ゼロショット型と微調整型の両方の条件下で,最先端の3つのビジュアル言語モデルを評価する。
論文 参考訳(メタデータ) (2026-03-03T09:42:43Z) - KH-FUNSD: A Hierarchical and Fine-Grained Layout Analysis Dataset for Low-Resource Khmer Business Document [11.302542266122579]
クメール語はカンボジアで1700万人以上が毎日話す言語である。
専門リソースの欠如は、ビジネスドキュメントにとって特に深刻です。
Khmer形式文書理解のための最初の公開データセットである textbfKH-FUNSD を提示する。
論文 参考訳(メタデータ) (2025-12-04T13:28:44Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [32.62155069664013]
textbfXForm textbfPARSER(textbfXForm)を導入する。
InDFormSFTも開発しています。InDFormSFTは、さまざまな産業的文脈でフォームのパースニーズに対処するデータセットです。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - Exploring Large Language Models and Hierarchical Frameworks for
Classification of Large Unstructured Legal Documents [0.6349503549199403]
我々は,大規模法律文書の分類と,深層学習に基づく階層的枠組みによる構造情報の欠如について検討する。
具体的には、文書を分割して、カスタムの微調整された大規模言語モデルの最後の4層から埋め込みを抽出する。
提案手法は,従来の最先端手法に比べて平均2ポイント程度の性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T16:24:08Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - RDU: A Region-based Approach to Form-style Document Understanding [69.29541701576858]
キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
論文 参考訳(メタデータ) (2022-06-14T14:47:48Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - SMDT: Selective Memory-Augmented Neural Document Translation [53.4627288890316]
本稿では,文脈の広い仮説空間を含む文書を扱うために,選択的メモリ拡張型ニューラル文書翻訳モデルを提案する。
トレーニングコーパスから類似のバイリンガル文ペアを抽出し,グローバルな文脈を拡大する。
ローカルなコンテキストと多様なグローバルなコンテキストをキャプチャする選択的なメカニズムで、2ストリームのアテンションモデルを拡張する。
論文 参考訳(メタデータ) (2022-01-05T14:23:30Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。