論文の概要: Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification
- arxiv url: http://arxiv.org/abs/2405.14162v2
- Date: Fri, 24 May 2024 04:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 12:41:46.198729
- Title: Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification
- Title(参考訳): 埋め込み型セマンティックセグメンテーションマスクの微細粒度分類への応用
- Authors: Taylor Archibald, Tony Martinez,
- Abstract要約: 史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient categorization of historical documents is crucial for fields such as genealogy, legal research, and historical scholarship, where manual classification is impractical for large collections due to its labor-intensive and error-prone nature. To address this, we propose a representational learning strategy that integrates semantic segmentation and deep learning models such as ResNet, CLIP, Document Image Transformer (DiT), and masked auto-encoders (MAE), to generate embeddings that capture document features without predefined labels. To the best of our knowledge, we are the first to evaluate embeddings on fine-grained, unsupervised form classification. To improve these embeddings, we propose to first employ semantic segmentation as a preprocessing step. We contribute two novel datasets$\unicode{x2014}$the French 19th-century and U.S. 1950 Census records$\unicode{x2014}$to demonstrate our approach. Our results show the effectiveness of these various embedding techniques in distinguishing similar document types and indicate that applying semantic segmentation can greatly improve clustering and classification results. The census datasets are available at https://github.com/tahlor/census_forms
- Abstract(参考訳): 史料の効率的な分類は、系譜学、法学研究、歴史学などの分野において重要であり、手作業による分類は、労働集約的かつ誤りを生じやすい性質から、大規模な収集には不実用である。
そこで本稿では,ResNet,CLIP,Document Image Transformer (DiT) やマスク付き自動エンコーダ (MAE) など,セマンティックセグメンテーションとディープラーニングモデルを統合した表現型学習戦略を提案する。
我々の知識を最大限に活用するために、我々は、きめ細かい、教師なしの形式分類への埋め込みを初めて評価する。
これらの埋め込みを改善するために,まずセマンティックセグメンテーションを前処理のステップとして活用することを提案する。
我々は、我々のアプローチを実証するために、2つの新しいデータセット$\unicode{x2014}$the French 19世紀と1950年の国勢調査記録$\unicode{x2014}$the French 19世紀と1950年の国勢調査記録$\unicode{x2014}$the U.S. 1950 Census records$\unicode{x2014}$the French 19世紀と1950年の国勢調査記録に貢献する。
本研究は, 類似の文書型を識別するための埋め込み手法の有効性を示し, セマンティックセグメンテーションを適用することにより, クラスタリングや分類結果を大幅に改善できることを示す。
国勢調査データセットはhttps://github.com/tahlor/census_formsで公開されている。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。