論文の概要: DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning
- arxiv url: http://arxiv.org/abs/2504.04085v1
- Date: Sat, 05 Apr 2025 07:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:42.542430
- Title: DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning
- Title(参考訳): DocSAM:クエリ分解と異種混合学習による統一文書画像分割
- Authors: Xiao-Hui Li, Fei Yin, Cheng-Lin Liu,
- Abstract要約: 文書画像のセグメンテーションは、文書解析と認識に不可欠である。
既存のメソッドはこれらのタスクを別々に処理し、その結果、一般化とリソースの浪費が制限される。
本稿では,様々な文書画像セグメンテーションタスク用に設計されたトランスフォーマーベースの統合フレームワークであるDocSAMを紹介する。
- 参考スコア(独自算出の注目度): 39.10966524559436
- License:
- Abstract: Document image segmentation is crucial for document analysis and recognition but remains challenging due to the diversity of document formats and segmentation tasks. Existing methods often address these tasks separately, resulting in limited generalization and resource wastage. This paper introduces DocSAM, a transformer-based unified framework designed for various document image segmentation tasks, such as document layout analysis, multi-granularity text segmentation, and table structure recognition, by modelling these tasks as a combination of instance and semantic segmentation. Specifically, DocSAM employs Sentence-BERT to map category names from each dataset into semantic queries that match the dimensionality of instance queries. These two sets of queries interact through an attention mechanism and are cross-attended with image features to predict instance and semantic segmentation masks. Instance categories are predicted by computing the dot product between instance and semantic queries, followed by softmax normalization of scores. Consequently, DocSAM can be jointly trained on heterogeneous datasets, enhancing robustness and generalization while reducing computational and storage resources. Comprehensive evaluations show that DocSAM surpasses existing methods in accuracy, efficiency, and adaptability, highlighting its potential for advancing document image understanding and segmentation across various applications. Codes are available at https://github.com/xhli-git/DocSAM.
- Abstract(参考訳): 文書画像のセグメンテーションは、文書解析と認識には不可欠であるが、文書形式やセグメンテーションタスクの多様性のため、依然として困難である。
既存の手法はこれらのタスクを個別に扱うことが多く、その結果、一般化とリソースの浪費が制限される。
本稿では,文書レイアウト解析,多粒度テキストセグメンテーション,テーブル構造認識など,様々な文書画像セグメンテーションタスクを対象とした変換器ベースの統合フレームワークであるDocSAMを紹介し,これらのタスクをインスタンスとセマンティックセグメンテーションの組み合わせとしてモデル化する。
具体的には、DocSAMはSentence-BERTを使用して、各データセットからインスタンスクエリの次元にマッチするセマンティッククエリにカテゴリ名をマッピングする。
これら2つのクエリセットは、アテンションメカニズムを介して相互作用し、画像特徴と交差してインスタンスとセマンティックセグメンテーションマスクを予測する。
インスタンスカテゴリは、インスタンスとセマンティッククエリの間のドット積を計算し、次にスコアのソフトマックス正規化によって予測される。
その結果、DocSAMは異種データセットで共同でトレーニングすることができ、計算とストレージリソースを削減しつつ、堅牢性と一般化を向上することができる。
包括的な評価はDocSAMが既存の精度、効率、適応性を上回り、文書イメージの理解とセグメンテーションを前進させる可能性を強調していることを示している。
コードはhttps://github.com/xhli-git/DocSAMで入手できる。
関連論文リスト
- MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。
MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - S2 Chunking: A Hybrid Framework for Document Segmentation Through Integrated Spatial and Semantic Analysis [0.0]
文書チャンキングは自然言語処理(NLP)において重要な課題である
本稿では,レイアウト構造,意味解析,空間関係を組み合わせた新しいハイブリッド手法を提案する。
実験の結果、このアプローチは従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-08T09:06:29Z) - Instance-Aware Generalized Referring Expression Segmentation [32.96760407482406]
InstAlignは、セグメンテーションプロセスにオブジェクトレベルの推論を組み込むメソッドである。
提案手法は最先端性能を著しく向上させ, 高精度かつ柔軟なGRESのための新しい標準を設定した。
論文 参考訳(メタデータ) (2024-11-22T17:28:43Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。
各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。
本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T03:34:24Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer [16.03084865625318]
ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。
本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。
我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2022-01-27T10:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。