Fugu-MT 論文翻訳(概要): Multimodal Side-Tuning for Document Classification

論文の概要: Multimodal Side-Tuning for Document Classification

arxiv url: http://arxiv.org/abs/2301.07502v1
Date: Mon, 16 Jan 2023 11:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-19 16:00:38.429309
Title: Multimodal Side-Tuning for Document Classification
Title（参考訳）: 文書分類のためのマルチモーダルサイドチューニング
Authors: Stefano Pio Zingaro and Giuseppe Lisanti and Maurizio Gabbrielli
Abstract要約: サイドチューニング(Side-tuning)は、最近導入されたネットワーク適応の方法論である。また,異なるデータソースを考慮した場合も,サイドチューニングをうまく活用できることが示唆された。
参考スコア（独自算出の注目度）: 3.0229888038442914
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we propose to exploit the side-tuning framework for multimodal document classification. Side-tuning is a methodology for network adaptation recently introduced to solve some of the problems related to previous approaches. Thanks to this technique it is actually possible to overcome model rigidity and catastrophic forgetting of transfer learning by fine-tuning. The proposed solution uses off-the-shelf deep learning architectures leveraging the side-tuning framework to combine a base model with a tandem of two side networks. We show that side-tuning can be successfully employed also when different data sources are considered, e.g. text and images in document classification. The experimental results show that this approach pushes further the limit for document classification accuracy with respect to the state of the art.
Abstract（参考訳）: 本稿では,マルチモーダル文書分類のためのサイドチューニングフレームワークを提案する。サイドチューニングは、以前のアプローチに関連するいくつかの問題を解決するために最近導入されたネットワーク適応のための方法論である。この技術により、モデル剛性を克服し、微調整により伝達学習を破滅的に忘れることができる。提案手法では,サイドチューニングフレームワークを活用した既製のディープラーニングアーキテクチャを用いて,ベースモデルと2つのサイドネットワークを組み合わせる。文書分類におけるテキストや画像など,異なるデータソースを考慮した場合も,サイドチューニングをうまく活用できることを示す。実験の結果, この手法は, 文書分類精度の限界をさらに高めていることがわかった。

関連論文リスト

BookNet: Book Image Rectification via Cross-Page Attention Network [61.60737484928661]
両ページ画像の修正に特化して設計された,エンド・ツー・エンドのディープラーニングフレームワークであるBookNetを紹介する。 BookNetは、ページ間のアテンション機構を備えたデュアルブランチアーキテクチャを採用しており、個々のページと完全なブックスプレッドの両方のワープフローを推定することができる。専門的なデータセットの欠如に対処するため、トレーニング用の大規模合成データセットであるBook3Dと、評価のための総合的な実世界のベンチマークであるBook100を紹介する。
論文参考訳（メタデータ） (2026-01-29T16:26:25Z)
ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
Task-Specific Adaptation with Restricted Model Access [23.114703555189937]
モデルアーキテクチャと重みがまだ隠されている"Gray-box"微調整アプローチは、勾配伝播のみを可能にする。モデル入力と出力の2つの軽量な学習可能なモジュールを用いて、新しいタスクに適応する、シンプルで効果的なフレームワークを新たに導入する。我々は,テキスト画像アライメント,テキスト映像アライメント,スケッチ画像アライメントなどのベンチマークで,複数のバックボーンにまたがるアプローチを評価した。
論文参考訳（メタデータ） (2025-02-02T13:29:44Z)
Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。 15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文参考訳（メタデータ） (2024-12-30T12:06:27Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
DocXplain: A Novel Model-Agnostic Explainability Method for Document Image Classification [5.247930659596986]
本稿では,高解釈性特徴属性マップの生成に特化して設計された新しいモデルに依存しない説明可能性手法であるDocXplainを紹介する。 4つの異なる評価指標を用いて,文書画像分類の文脈において提案手法を広範囲に評価した。著者の知識を最大限に活用するために、本研究は、特に文書画像に適した、モデルに依存しない属性に基づく説明可能性法を初めて提示する。
論文参考訳（メタデータ） (2024-07-04T10:59:15Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
LayeredDoc: Domain Adaptive Document Restoration with a Layer Separation Approach [9.643486775455841]
本稿では,文書画像復元システムにおける領域適応性を向上するテキスト・グラフィック・レイヤ分離手法を提案する。本稿では,2つのレイヤ情報を利用するLayeredDocを提案する。第1のターゲットは粗粒のグラフィックコンポーネントであり,第2のレイヤは機械印刷されたテキストコンテンツを洗練する。本研究では,本研究のために開発された新しい実世界のデータセットであるLayeredDocDBを用いて,定性的かつ定量的にアプローチを評価する。
論文参考訳（メタデータ） (2024-06-12T19:41:01Z)
Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation [6.7311791228366]
本稿では,安定拡散のための微調整手法を幅広く選択したオープンソースライブラリLyCORISを紹介する。また,各種微調整技術の体系的評価のための枠組みも提示する。我々の研究は、最先端の研究と実践的応用のギャップを埋める、微調整パラメータのニュアンスド効果に関する重要な洞察を提供する。
論文参考訳（メタデータ） (2023-09-26T11:36:26Z)
Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。 SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。 SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-16T16:46:32Z)
RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文参考訳（メタデータ） (2021-02-01T19:26:17Z)
Unsupervised Neural Domain Adaptation for Document Image Binarization [13.848843012433187]
本稿では,ニューラルネットワークとドメイン適応(DA)を組み合わせて,教師なし文書のバイナライゼーションを行う手法を提案する。その結果,ラベル付きデータを必要とせず,新たな文書領域の双対化をうまく処理できることが示唆された。
論文参考訳（メタデータ） (2020-12-02T13:42:38Z)
Self-supervised Deep Reconstruction of Mixed Strip-shredded Text Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文参考訳（メタデータ） (2020-07-01T21:48:05Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)
Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文参考訳（メタデータ） (2020-03-23T03:22:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。