論文の概要: BookNet: Book Image Rectification via Cross-Page Attention Network
- arxiv url: http://arxiv.org/abs/2601.21938v1
- Date: Thu, 29 Jan 2026 16:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.988168
- Title: BookNet: Book Image Rectification via Cross-Page Attention Network
- Title(参考訳): BookNet: クロスページアテンションネットワークによるブックイメージの再現
- Authors: Shaokai Liu, Hao Feng, Bozhi Luan, Min Hou, Jiajun Deng, Wengang Zhou,
- Abstract要約: 両ページ画像の修正に特化して設計された,エンド・ツー・エンドのディープラーニングフレームワークであるBookNetを紹介する。
BookNetは、ページ間のアテンション機構を備えたデュアルブランチアーキテクチャを採用しており、個々のページと完全なブックスプレッドの両方のワープフローを推定することができる。
専門的なデータセットの欠如に対処するため、トレーニング用の大規模合成データセットであるBook3Dと、評価のための総合的な実世界のベンチマークであるBook100を紹介する。
- 参考スコア(独自算出の注目度): 61.60737484928661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Book image rectification presents unique challenges in document image processing due to complex geometric distortions from binding constraints, where left and right pages exhibit distinctly asymmetric curvature patterns. However, existing single-page document image rectification methods fail to capture the coupled geometric relationships between adjacent pages in books. In this work, we introduce BookNet, the first end-to-end deep learning framework specifically designed for dual-page book image rectification. BookNet adopts a dual-branch architecture with cross-page attention mechanisms, enabling it to estimate warping flows for both individual pages and the complete book spread, explicitly modeling how left and right pages influence each other. Moreover, to address the absence of specialized datasets, we present Book3D, a large-scale synthetic dataset for training, and Book100, a comprehensive real-world benchmark for evaluation. Extensive experiments demonstrate that BookNet outperforms existing state-of-the-art methods on book image rectification. Code and dataset will be made publicly available.
- Abstract(参考訳): 書籍画像の修正は、左右のページが明らかに非対称な曲率パターンを示す、束縛制約からの複雑な幾何学的歪みによる文書画像処理において固有の課題を示す。
しかし,既存の1ページの文書画像補正手法では,本書内の隣接するページ間の幾何学的関係を捉えることができない。
本研究では,両ページ画像の修正に特化して設計された,エンド・ツー・エンドのディープラーニングフレームワークであるBookNetを紹介する。
BookNetは、ページ間のアテンション機構を備えたデュアルブランチアーキテクチャを採用し、個々のページと完全なブックの双方のワープフローを推定し、左右ページが相互にどのように影響するかを明示的にモデル化する。
さらに、専門的なデータセットの欠如に対処するため、トレーニング用の大規模合成データセットであるBook3Dと、評価のための総合的な実世界のベンチマークであるBook100を紹介する。
大規模な実験により、ブックネットはブックイメージの修正において、既存の最先端の手法よりも優れていることが示された。
コードとデータセットが公開されている。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - TPIE: Topology-Preserved Image Editing With Text Instructions [14.399084325078878]
テキストによるトポロジー保存画像編集(TPIE)
TPIEは、新しく生成されたサンプルを与えられた入力テンプレートの変形可能なバリエーションとして扱い、制御可能かつ構造保存可能な編集を可能にする。
TPIEを2次元画像と3次元画像の多種多様なセットで検証し,最新の画像編集手法と比較した。
論文 参考訳(メタデータ) (2024-11-22T22:08:27Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - UVDoc: Neural Grid-based Document Unwarping [20.51368640747448]
カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は,完全畳み込み型ディープニューラルネットワークを用いて幾何歪み補正を行う。
論文 参考訳(メタデータ) (2023-02-06T15:53:34Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。