論文の概要: Hybrid Multi-Phase Page Matching and Multi-Layer Diff Detection for Japanese Building Permit Document Review
- arxiv url: http://arxiv.org/abs/2604.19770v1
- Date: Fri, 27 Mar 2026 09:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.062327
- Title: Hybrid Multi-Phase Page Matching and Multi-Layer Diff Detection for Japanese Building Permit Document Review
- Title(参考訳): 日本建築許可書レビューのためのハイブリッド多相ページマッチングと多層ディフ検出
- Authors: Mitsumasa Wada,
- Abstract要約: 日本における許可書作成には,改訂サイクルをまたいだ大規模なPDF文書の相互参照が必要である。
このアルゴリズムは、最長の共通サブシーケンス(LCS)構造アライメント、7相のコンセンサスマッチングパイプライン、動的プログラミング最適アライメントステージを組み合わせる。
F1=0.80と精度=1.00を、手動で注釈付けされた接地トラスベンチマークで達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a hybrid multi-phase page matching algorithm for automated comparison of Japanese building permit document sets. Building permit review in Japan requires cross-referencing large PDF document sets across revision cycles, a process that is labor-intensive and error-prone when performed manually. The algorithm combines longest common subsequence (LCS) structural alignment, a seven-phase consensus matching pipeline, and a dynamic programming optimal alignment stage to robustly pair pages across revisions even when page order, numbering, or content changes substantially. A subsequent multi-layer diff engine -- comprising text-level, table-level, and pixel-level visual differencing -- produces highlighted difference reports. Evaluation on real-world permit document sets achieves F1=0.80 and precision=1.00 on a manually annotated ground-truth benchmark, with zero false-positive matched pairs.
- Abstract(参考訳): 本稿では,日本語建築許可文書集合の自動比較のためのハイブリッド多相ページマッチングアルゴリズムを提案する。
我が国における許可審査の実施には,大規模なPDF文書セットの相互参照が必要であり,手作業による作業では,労働集約的かつエラーが発生しやすい。
このアルゴリズムは、長い共通サブシーケンス(LCS)構造アライメント、7相のコンセンサスマッチングパイプライン、動的プログラミング最適アライメントステージを組み合わせて、ページ順序、番号、コンテンツが大幅に変化しても、リビジョン間でページを堅牢にペアリングする。
その後の多層差分エンジン(テキストレベル、テーブルレベル、ピクセルレベルの視覚差分を含む)は強調された差分レポートを生成する。
実世界の許可文書セットの評価は、F1=0.80とF1=0.80と精度=1.00を手動でアノテートしたグランドトルースベンチマークで達成し、偽陽性のペアはゼロである。
関連論文リスト
- Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding [0.0]
Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらした。
従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、マルチページテーブル、埋め込みフィギュア、ページ境界を越えたコンテキスト依存に苦労する。
本稿では,Large Multimodal Models(LMM)を利用してPDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T05:11:43Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。