論文の概要: EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification
- arxiv url: http://arxiv.org/abs/2305.06923v1
- Date: Thu, 11 May 2023 16:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 14:03:08.875386
- Title: EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification
- Title(参考訳): EAML:文書画像分類のための自己注意型相互学習ネットワーク
- Authors: Souhail Bakkali, Ziheng Ming, Mickael Coustaty, Mar\c{c}al Rusi\~nol
- Abstract要約: 我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the recent past, complex deep neural networks have received huge interest
in various document understanding tasks such as document image classification
and document retrieval. As many document types have a distinct visual style,
learning only visual features with deep CNNs to classify document images have
encountered the problem of low inter-class discrimination, and high intra-class
structural variations between its categories. In parallel, text-level
understanding jointly learned with the corresponding visual properties within a
given document image has considerably improved the classification performance
in terms of accuracy. In this paper, we design a self-attention-based fusion
module that serves as a block in our ensemble trainable network. It allows to
simultaneously learn the discriminant features of image and text modalities
throughout the training stage. Besides, we encourage mutual learning by
transferring the positive knowledge between image and text modalities during
the training stage. This constraint is realized by adding a
truncated-Kullback-Leibler divergence loss Tr-KLD-Reg as a new regularization
term, to the conventional supervised setting. To the best of our knowledge,
this is the first time to leverage a mutual learning approach along with a
self-attention-based fusion module to perform document image classification.
The experimental results illustrate the effectiveness of our approach in terms
of accuracy for the single-modal and multi-modal modalities. Thus, the proposed
ensemble self-attention-based mutual learning model outperforms the
state-of-the-art classification results based on the benchmark RVL-CDIP and
Tobacco-3482 datasets.
- Abstract(参考訳): 近年、複雑なディープニューラルネットワークは、文書画像の分類や文書検索など、様々な文書理解タスクに大きな関心を集めている。
多くの文書タイプが視覚的スタイルが異なるため、文書イメージを分類するための深層CNNによる視覚的特徴のみを学習することは、クラス間差別の低い問題に遭遇し、そのカテゴリ間のクラス内構造の変化が高い。
並行して、文書画像内の対応する視覚特性と共同で学習したテキストレベルの理解により、精度で分類性能が大幅に向上した。
本稿では,自己組織化学習ネットワークのブロックとして機能する自己注意型融合モジュールを設計する。
トレーニングステージを通じて、画像とテキストのモダリティの識別的特徴を同時に学習することができる。
また,訓練段階で画像とテキストの正の知識を伝達することで,相互学習を促進する。
この制約は、従来の教師付き設定に新たな正規化項tr−kld−regを付加することにより実現される。
我々の知る限りでは、文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
実験結果は,単一モードおよび多モードモードの精度の観点から,本手法の有効性を示す。
そこで,提案手法は,ベンチマークrvl-cdip と tobacco-3482 データセットに基づく最先端の分類結果よりも優れている。
関連論文リスト
- FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Self-Supervised Representation Learning on Document Images [8.927538538637783]
パッチベースの事前学習は,異なる構造特性とサンプル内セマンティック情報が乏しいため,文書画像上では不十分であることを示す。
そこで本稿では,Tobacco-3482画像分類タスクの性能向上のための2つのコンテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2020-04-18T10:14:06Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。