論文の概要: Multimodal Side-Tuning for Document Classification
- arxiv url: http://arxiv.org/abs/2301.07502v1
- Date: Mon, 16 Jan 2023 11:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:00:38.429309
- Title: Multimodal Side-Tuning for Document Classification
- Title(参考訳): 文書分類のためのマルチモーダルサイドチューニング
- Authors: Stefano Pio Zingaro and Giuseppe Lisanti and Maurizio Gabbrielli
- Abstract要約: サイドチューニング(Side-tuning)は、最近導入されたネットワーク適応の方法論である。
また,異なるデータソースを考慮した場合も,サイドチューニングをうまく活用できることが示唆された。
- 参考スコア(独自算出の注目度): 3.0229888038442914
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose to exploit the side-tuning framework for multimodal
document classification. Side-tuning is a methodology for network adaptation
recently introduced to solve some of the problems related to previous
approaches. Thanks to this technique it is actually possible to overcome model
rigidity and catastrophic forgetting of transfer learning by fine-tuning. The
proposed solution uses off-the-shelf deep learning architectures leveraging the
side-tuning framework to combine a base model with a tandem of two side
networks. We show that side-tuning can be successfully employed also when
different data sources are considered, e.g. text and images in document
classification. The experimental results show that this approach pushes further
the limit for document classification accuracy with respect to the state of the
art.
- Abstract(参考訳): 本稿では,マルチモーダル文書分類のためのサイドチューニングフレームワークを提案する。
サイドチューニングは、以前のアプローチに関連するいくつかの問題を解決するために最近導入されたネットワーク適応のための方法論である。
この技術により、モデル剛性を克服し、微調整により伝達学習を破滅的に忘れることができる。
提案手法では,サイドチューニングフレームワークを活用した既製のディープラーニングアーキテクチャを用いて,ベースモデルと2つのサイドネットワークを組み合わせる。
文書分類におけるテキストや画像など,異なるデータソースを考慮した場合も,サイドチューニングをうまく活用できることを示す。
実験の結果, この手法は, 文書分類精度の限界をさらに高めていることがわかった。
関連論文リスト
- Benchmarking Transferable Adversarial Attacks [6.898135768312255]
敵対的攻撃に対するディープラーニングモデルの堅牢性は、依然として重要な関心事である。
本研究は、敵攻撃の伝達可能性を高めるために開発された様々な手法を体系的に分類し、批判的に評価する。
論文 参考訳(メタデータ) (2024-02-01T08:36:16Z) - Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to
Model Evaluation [6.7311791228366]
本稿では,安定拡散のための微調整手法を幅広く選択したオープンソースライブラリLyCORISを紹介する。
また,各種微調整技術の体系的評価のための枠組みも提示する。
我々の研究は、最先端の研究と実践的応用のギャップを埋める、微調整パラメータのニュアンスド効果に関する重要な洞察を提供する。
論文 参考訳(メタデータ) (2023-09-26T11:36:26Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Unsupervised Document Embedding via Contrastive Augmentation [48.71917352110245]
本稿では,教師なしで文書表現を学習するためのデータ拡張手法と対比学習手法を提案する。
画像と事前学習に使われる最近のコントラスト的自己教師付き学習アルゴリズムに触発されて、高品質な文書埋め込みは様々なパラフレーズに不変であるべきだと仮定した。
本手法は,文書分類作業におけるSOTA手法よりも最大6.4%の分類誤差率を減少させることができる。
論文 参考訳(メタデータ) (2021-03-26T15:48:52Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Unsupervised Neural Domain Adaptation for Document Image Binarization [13.848843012433187]
本稿では,ニューラルネットワークとドメイン適応(DA)を組み合わせて,教師なし文書のバイナライゼーションを行う手法を提案する。
その結果,ラベル付きデータを必要とせず,新たな文書領域の双対化をうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2020-12-02T13:42:38Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z) - Leveraging the Feature Distribution in Transfer-based Few-Shot Learning [2.922007656878633]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。
本稿では,(1)特徴ベクトルをガウス分布に近づけるように前処理し,2)最適輸送インスパイアされたアルゴリズムを用いて,この前処理を活用する。
提案手法は,様々なデータセット,バックボーンアーキテクチャ,少数ショット設定を用いて,最先端の精度を実現することができる。
論文 参考訳(メタデータ) (2020-06-06T07:32:08Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Deep Unfolding Network for Image Super-Resolution [159.50726840791697]
本稿では,学習に基づく手法とモデルに基づく手法の両方を活用する,エンドツーエンドのトレーニング可能なアンフォールディングネットワークを提案する。
提案するネットワークは, モデルベース手法の柔軟性を継承し, 一つのモデルを用いて, 異なるスケール要因に対する, 曖昧でノイズの多い画像の超解像化を行う。
論文 参考訳(メタデータ) (2020-03-23T17:55:42Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。