論文の概要: Self-Supervised Pre-Training for Table Structure Recognition Transformer
- arxiv url: http://arxiv.org/abs/2402.15578v1
- Date: Fri, 23 Feb 2024 19:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:00:51.721421
- Title: Self-Supervised Pre-Training for Table Structure Recognition Transformer
- Title(参考訳): テーブル構造認識トランスの自己教師付き事前学習
- Authors: ShengYun Peng, Seongmin Lee, Xiaojing Wang, Rajarajeswari
Balasubramaniyan and Duen Horng Chau
- Abstract要約: テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
- 参考スコア(独自算出の注目度): 25.04573593082671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table structure recognition (TSR) aims to convert tabular images into a
machine-readable format. Although hybrid convolutional neural network
(CNN)-transformer architecture is widely used in existing approaches, linear
projection transformer has outperformed the hybrid architecture in numerous
vision tasks due to its simplicity and efficiency. However, existing research
has demonstrated that a direct replacement of CNN backbone with linear
projection leads to a marked performance drop. In this work, we resolve the
issue by proposing a self-supervised pre-training (SSP) method for TSR
transformers. We discover that the performance gap between the linear
projection transformer and the hybrid CNN-transformer can be mitigated by SSP
of the visual encoder in the TSR model. We conducted reproducible ablation
studies and open-sourced our code at https://github.com/poloclub/unitable to
enhance transparency, inspire innovations, and facilitate fair comparisons in
our domain as tables are a promising modality for representation learning.
- Abstract(参考訳): テーブル構造認識(tsr)は、表イメージを機械可読形式に変換することを目的としている。
既存のアプローチでは、ハイブリッド畳み込みニューラルネットワーク(cnn)-トランスフォーマーアーキテクチャが広く使われているが、線形投影トランスフォーマーは、そのシンプルさと効率性から、多くのビジョンタスクにおいてハイブリッドアーキテクチャを上回っている。
しかし、既存の研究により、cnnバックボーンを線形射影に置き換えることで、著しいパフォーマンス低下につながることが示されている。
本研究では,TSRトランスのための自己教師付き事前学習(SSP)手法を提案する。
tsrモデルにおける視覚エンコーダのsspにより線形投影トランスとハイブリッドcnn変換器の性能ギャップを緩和できることを見出した。
我々は再現可能なアブレーション研究を行い、透明性を高め、イノベーションを刺激し、私たちの領域における公正な比較を促進するために、https://github.com/poloclub/unitableでコードをオープンソース化しました。
関連論文リスト
- Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。
畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文 参考訳(メタデータ) (2024-09-26T07:24:09Z) - Convolutional Initialization for Data-Efficient Vision Transformers [38.63299194992718]
小さなデータセット上のビジョントランスフォーマーネットワークのトレーニングには課題がある。
CNNはアーキテクチャ上の帰納バイアスを利用して最先端のパフォーマンスを達成することができる。
我々のアプローチは、ランダムなインパルスフィルタがCNNの学習フィルタとほぼ同等の性能を達成できるという発見に動機づけられている。
論文 参考訳(メタデータ) (2024-01-23T06:03:16Z) - High-Performance Transformers for Table Structure Recognition Need Early
Convolutions [25.04573593082671]
既存のアプローチでは、ビジュアルエンコーダには古典的畳み込みニューラルネットワーク(CNN)、テキストデコーダにはトランスフォーマーが使用されている。
表現力を犠牲にすることなくテーブル構造認識(TSR)のための軽量ビジュアルエンコーダを設計する。
畳み込みステムは従来のCNNバックボーンのパフォーマンスとより単純なモデルで一致できることが判明した。
論文 参考訳(メタデータ) (2023-11-09T18:20:52Z) - B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers [97.75725574963197]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。
得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
論文 参考訳(メタデータ) (2023-06-19T12:54:28Z) - NAR-Former V2: Rethinking Transformer for Universal Neural Network
Representation Learning [25.197394237526865]
本稿では,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。
具体的には、ネットワークをグラフとして取り、簡単なトークン化器を設計して、ネットワークをシーケンスにエンコードする。
我々は,GNNの帰納的表現学習能力をTransformerに組み込んだ。
論文 参考訳(メタデータ) (2023-06-19T09:11:04Z) - B-cos Networks: Alignment is All We Need for Interpretability [136.27303006772294]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
B-コス変換は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。
VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに簡単に統合できることを示します。
論文 参考訳(メタデータ) (2022-05-20T16:03:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Transformer Assisted Convolutional Network for Cell Instance
Segmentation [5.195101477698897]
本稿では,従来の畳み込み特徴抽出器の性能向上のためのトランスフォーマーに基づく手法を提案する。
提案手法は, 変圧器の自己アテンションに類似した投影操作を適用することにより, 変圧器を用いたトークン埋め込みと畳み込み特徴写像を融合する。
論文 参考訳(メタデータ) (2021-10-05T18:18:31Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。