論文の概要: Class-Agnostic Region-of-Interest Matching in Document Images
- arxiv url: http://arxiv.org/abs/2506.21055v1
- Date: Thu, 26 Jun 2025 07:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.011477
- Title: Class-Agnostic Region-of-Interest Matching in Document Images
- Title(参考訳): 文書画像におけるクラス非依存領域-関心領域マッチング
- Authors: Demin Zhang, Jiahao Lyu, Zhijie Shen, Yu Zhou,
- Abstract要約: 本稿では,「クラス非依存領域-関心のマッチング」という新しいタスクを定義する。
カスタマイズされたリージョンを、フレキシブルで効率よく、マルチグラニュラで、オープンな方法でマッチングすることを目指している。
実環境下での難易度を3段階に設定したベンチマークRoI-Matching-Benchを構築した。
また,シアムネットワークを用いてマルチレベルの特徴を抽出する新しいフレームワークRoI-Matcherを提案する。
- 参考スコア(独自算出の注目度): 5.0512633844625405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document understanding and analysis have received a lot of attention due to their widespread application. However, existing document analysis solutions, such as document layout analysis and key information extraction, are only suitable for fixed category definitions and granularities, and cannot achieve flexible applications customized by users. Therefore, this paper defines a new task named ``Class-Agnostic Region-of-Interest Matching'' (``RoI-Matching'' for short), which aims to match the customized regions in a flexible, efficient, multi-granularity, and open-set manner. The visual prompt of the reference document and target document images are fed into our model, while the output is the corresponding bounding boxes in the target document images. To meet the above requirements, we construct a benchmark RoI-Matching-Bench, which sets three levels of difficulties following real-world conditions, and propose the macro and micro metrics to evaluate. Furthermore, we also propose a new framework RoI-Matcher, which employs a siamese network to extract multi-level features both in the reference and target domains, and cross-attention layers to integrate and align similar semantics in different domains. Experiments show that our method with a simple procedure is effective on RoI-Matching-Bench, and serves as the baseline for further research. The code is available at https://github.com/pd162/RoI-Matching.
- Abstract(参考訳): ドキュメントの理解と分析は、広く応用されているため、多くの注目を集めている。
しかし,文書レイアウト解析やキー情報抽出といった既存の文書解析ソリューションは,一定のカテゴリ定義や粒度にのみ適しており,ユーザがカスタマイズした柔軟なアプリケーションを実現することはできない。
そこで本稿では,カスタマイズした領域を柔軟で効率的,多粒度,オープンな方法でマッチングすることを目的とした,‘Class-Agnostic Region-of-Interest Matching'’(略して`RoI-Matching')というタスクを定義した。
参照文書の視覚的プロンプトと対象文書画像はモデルに入力され、出力は対象文書画像の対応するバウンディングボックスとなる。
以上の要件を満たすため,実世界の条件に従って3段階の難易度を設定できるベンチマークRoI-Matching-Benchを構築し,マクロおよびマイクロメトリクスの評価手法を提案する。
さらに,参照ドメインとターゲットドメインの両方において,複数のレベルの特徴を抽出するためにシアムネットワークを利用する新しいフレームワークRoI-Matcherと,類似したセマンティクスを異なるドメインに統合・整合するクロスアテンション層を提案する。
実験により,本手法はRoI-Matching-Benchに有効であり,さらなる研究のベースラインとなることが示された。
コードはhttps://github.com/pd162/RoI-Matching.comで入手できる。
関連論文リスト
- DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning [39.10966524559436]
文書画像のセグメンテーションは、文書解析と認識に不可欠である。
既存のメソッドはこれらのタスクを別々に処理し、その結果、一般化とリソースの浪費が制限される。
本稿では,様々な文書画像セグメンテーションタスク用に設計されたトランスフォーマーベースの統合フレームワークであるDocSAMを紹介する。
論文 参考訳(メタデータ) (2025-04-05T07:14:53Z) - Subtopic-aware View Sampling and Temporal Aggregation for Long-form Document Matching [34.81690842091582]
長文文書マッチングは、2つの文書間の関係を判断することを目的としている。
代表的マッチング信号のモデル化のための新しいフレームワークを提案する。
我々の学習フレームワークは,ニュース重複や判例検索など,いくつかの文書マッチング作業に有効である。
論文 参考訳(メタデータ) (2024-12-10T15:06:48Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - RDU: A Region-based Approach to Form-style Document Understanding [69.29541701576858]
キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
論文 参考訳(メタデータ) (2022-06-14T14:47:48Z) - iFacetSum: Coreference-based Interactive Faceted Summarization for
Multi-Document Exploration [63.272359227081836]
iFacetSumは、インタラクティブな要約と顔検索を統合している。
微粒なファセットは、クロスドキュメントのコア参照パイプラインに基づいて自動的に生成される。
論文 参考訳(メタデータ) (2021-09-23T20:01:11Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。