論文の概要: Exploring Multi-Tasking Learning in Document Attribute Classification
- arxiv url: http://arxiv.org/abs/2108.13382v1
- Date: Mon, 30 Aug 2021 17:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 15:47:09.143546
- Title: Exploring Multi-Tasking Learning in Document Attribute Classification
- Title(参考訳): 文書属性分類におけるマルチタスク学習の探索
- Authors: Tanmoy Mondal, Abhijit Das and Zuheng Ming
- Abstract要約: 文書分類を行うために,Multi-Tasking Learning(MTL)に基づくネットワークを探索する。
これらの課題を達成するために、文書からランダムに抽出された単語の区分けレベルや大きさの均一なパッチを操作します。
ハイブリッド畳み込みニューラルネットワーク (CNN) アーキテクチャ "MTL+MI" を用いて、同一の文書属性の分類のための共同学習を行う。
- 参考スコア(独自算出の注目度): 4.5591913587473964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we adhere to explore a Multi-Tasking learning (MTL) based
network to perform document attribute classification such as the font type,
font size, font emphasis and scanning resolution classification of a document
image. To accomplish these tasks, we operate on either segmented word level or
on uniformed size patches randomly cropped out of the document. Furthermore, a
hybrid convolution neural network (CNN) architecture "MTL+MI", which is based
on the combination of MTL and Multi-Instance (MI) of patch and word is used to
accomplish joint learning for the classification of the same document
attributes. The contribution of this paper are three fold: firstly, based on
segmented word images and patches, we present a MTL based network for the
classification of a full document image. Secondly, we propose a MTL and MI
(using segmented words and patches) based combined CNN architecture ("MTL+MI")
for the classification of same document attributes. Thirdly, based on the
multi-tasking classifications of the words and/or patches, we propose an
intelligent voting system which is based on the posterior probabilities of each
words and/or patches to perform the classification of document's attributes of
complete document image.
- Abstract(参考訳): 本研究では,MTL(Multi-Tasking Learning)に基づくネットワークを探索し,フォントタイプ,フォントサイズ,フォント強調,文書画像のスキャン解像度分類などの文書属性分類を行う。
これらのタスクを達成するために、セグメンテーションされたワードレベルか、ドキュメントからランダムに切り抜かれた均一なサイズパッチのいずれかで操作します。
さらに、mtlとパッチとワードのマルチインテンス(mi)の組み合わせに基づくハイブリッド畳み込みニューラルネットワーク(cnn)アーキテクチャ「mtl+mi」を用いて、同一文書属性の分類のための共同学習を実現する。
本論文のコントリビューションは3つある: まず, 分割された単語画像とパッチに基づいて, フルドキュメント画像の分類のためのMTLベースのネットワークを示す。
第2に,同一文書属性の分類にCNNアーキテクチャ(MTL+MI)を併用したMTLとMIを提案する。
第3に,単語および/又はパッチのマルチタスク分類に基づいて,各単語および/又はパッチの後方確率に基づくインテリジェント投票システムを提案し,文書の属性の完全な文書画像の分類を行う。
関連論文リスト
- Exploiting LMM-based knowledge for image classification tasks [11.801596051153725]
画像のセマンティック記述の抽出にはMiniGPT-4モデルを用いる。
本稿では,MiniGPT-4の生成する意味記述に対応するテキスト埋め込みを得るために,テキストエンコーダを付加的に使用することを提案する。
3つのデータセットに対する実験的な評価は,LMMに基づく知識を活用した分類性能の向上を実証する。
論文 参考訳(メタデータ) (2024-06-05T08:56:24Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。
我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。
実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文 参考訳(メタデータ) (2023-10-25T04:35:06Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。