論文の概要: Document Layout Analysis on BaDLAD Dataset: A Comprehensive MViTv2 Based
Approach
- arxiv url: http://arxiv.org/abs/2308.16571v1
- Date: Thu, 31 Aug 2023 09:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 15:02:27.813801
- Title: Document Layout Analysis on BaDLAD Dataset: A Comprehensive MViTv2 Based
Approach
- Title(参考訳): BaDLADデータセットの文書レイアウト解析:総合的MViTv2に基づくアプローチ
- Authors: Ashrafur Rahman Khan, Asif Azad
- Abstract要約: 我々は、文書からテキストボックス、段落、画像、テーブルを抽出するために、BaDLADデータセット上のカスケードマスクR-CNNを用いてMViTv2トランスフォーマーモデルアーキテクチャを訓練した。
3相サイクルで36エポックの20365文書画像のトレーニングを行ったところ、0.2125のトレーニング損失と0.19のマスク損失が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving digital era, the analysis of document layouts plays a
pivotal role in automated information extraction and interpretation. In our
work, we have trained MViTv2 transformer model architecture with cascaded mask
R-CNN on BaDLAD dataset to extract text box, paragraphs, images and tables from
a document. After training on 20365 document images for 36 epochs in a 3 phase
cycle, we achieved a training loss of 0.2125 and a mask loss of 0.19. Our work
extends beyond training, delving into the exploration of potential enhancement
avenues. We investigate the impact of rotation and flip augmentation, the
effectiveness of slicing input images pre-inference, the implications of
varying the resolution of the transformer backbone, and the potential of
employing a dual-pass inference to uncover missed text-boxes. Through these
explorations, we observe a spectrum of outcomes, where some modifications
result in tangible performance improvements, while others offer unique insights
for future endeavors.
- Abstract(参考訳): 急速に発展するデジタル時代において、文書レイアウトの分析は、自動情報抽出と解釈において重要な役割を果たす。
本研究では,文書からテキストボックス,段落,画像,テーブルを抽出するために,BaDLADデータセット上にカスケードマスクR-CNNを用いたMViTv2トランスフォーマーモデルアーキテクチャを訓練した。
3相サイクルで36エポックの20365文書画像のトレーニングを行ったところ、0.2125のトレーニング損失と0.19のマスク損失が得られた。
私たちの仕事は、トレーニングを超えて、潜在的な拡張の道を探究しています。
本研究では, 回転とフリップの増大の影響, 入力画像のスライシング効果, トランスフォーマーバックボーンの解像度変化の影響, 欠落したテキストボックスを明らかにするためにデュアルパス推論を用いる可能性について検討した。
これらの調査を通じて、いくつかの変更が具体的なパフォーマンス改善をもたらすとともに、将来的な取り組みにユニークな洞察を与える結果のスペクトルを観察する。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。
また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文 参考訳(メタデータ) (2024-08-12T01:49:13Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - Improving accuracy and speeding up Document Image Classification through
parallel systems [4.102028235659611]
RVL-CDIPデータセットで、より軽量なモデルで以前の結果を改善することができることを示す。
画像入力のみを増強できるアンサンブルパイプラインを提案する。
最後に、PyTorchとDeep Learningフレームワーク間のトレーニングパフォーマンスの違いを明らかにします。
論文 参考訳(メタデータ) (2020-06-16T13:36:07Z) - On the Generalization Effects of Linear Transformations in Data
Augmentation [32.01435459892255]
データ拡張は、画像やテキストの分類タスクのようなアプリケーションのパフォーマンスを改善するための強力な技術である。
我々は線形変換の族を研究し、過度にパラメータ化された線形回帰設定におけるリッジ推定器への影響について研究する。
本稿では,モデルが変換データに対してどの程度不確実であるかによって,変換空間を探索する拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T04:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。