論文の概要: WordVIS: A Color Worth A Thousand Words
- arxiv url: http://arxiv.org/abs/2412.10155v1
- Date: Fri, 13 Dec 2024 14:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:56.900213
- Title: WordVIS: A Color Worth A Thousand Words
- Title(参考訳): WordVIS:何千もの単語のカラー価値
- Authors: Umar Khan, Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed,
- Abstract要約: 文書分類において、マルチモーダルなアプローチがますます人気になっている。
これらのアプローチは、膨大な量のトレーニングデータと広範な計算能力を必要とするため、未利用である。
本稿では,テキスト機能を直接視覚空間に埋め込むことにより,これらの問題に対処する。
- 参考スコア(独自算出の注目度): 4.891597567642704
- License:
- Abstract: Document classification is considered a critical element in automated document processing systems. In recent years multi-modal approaches have become increasingly popular for document classification. Despite their improvements, these approaches are underutilized in the industry due to their requirement for a tremendous volume of training data and extensive computational power. In this paper, we attempt to address these issues by embedding textual features directly into the visual space, allowing lightweight image-based classifiers to achieve state-of-the-art results using small-scale datasets in document classification. To evaluate the efficacy of the visual features generated from our approach on limited data, we tested on the standard dataset Tobacco-3482. Our experiments show a tremendous improvement in image-based classifiers, achieving an improvement of 4.64% using ResNet50 with no document pre-training. It also sets a new record for the best accuracy of the Tobacco-3482 dataset with a score of 91.14% using the image-based DocXClassifier with no document pre-training. The simplicity of the approach, its resource requirements, and subsequent results provide a good prospect for its use in industrial use cases.
- Abstract(参考訳): 文書分類は、自動文書処理システムにおいて重要な要素であると考えられている。
近年,文書分類においてマルチモーダルな手法が普及している。
それらの改善にもかかわらず、これらのアプローチは、膨大な量のトレーニングデータと広範な計算能力を必要とするため、業界では利用されていない。
本稿では,テキスト特徴を直接視覚空間に埋め込むことにより,文書分類における小規模なデータセットを用いて,軽量な画像ベース分類器が最先端の成果を得られるようにすることで,これらの課題に対処する。
限られたデータから得られた視覚的特徴の有効性を評価するため,標準データセットであるTobacco-3482を用いて実験を行った。
我々の実験は画像ベース分類器の大幅な改善を示し、ResNet50による4.64%の改善を文書事前学習なしで達成した。
また、Tobacco-3482データセットの最高の精度のために、画像ベースのDocXClassifierを使って91.14%のスコアで文書を事前トレーニングせずに新しいレコードを設定する。
アプローチの単純さ、そのリソース要件、そしてそれに続く結果が、産業利用におけるその使用の見通しを立証する。
関連論文リスト
- Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - Domain Agnostic Few-Shot Learning For Document Intelligence [4.243926243206826]
ほとんどショット学習は、クラスラベルを持つ少数のサンプルだけで、新しいクラスに一般化することを目的としていない。
本研究では,ドメインシフト下での文書画像分類の問題に対処する。
論文 参考訳(メタデータ) (2021-10-29T03:19:31Z) - Efficient Document Image Classification Using Region-Based Graph Neural
Network [4.147346416230273]
文書画像分類は、様々な産業にまたがる多くの企業アプリケーションで商業化が可能であるため、依然としてポピュラーな研究分野である。
大規模な事前学習されたコンピュータビジョンと言語モデル、グラフニューラルネットワークの最近の進歩は、ドキュメントイメージの分類に多くのツールを提供している。
本稿では,グラフ畳み込みニューラルネットワークを用いた効率的な文書画像分類フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-25T17:57:04Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2020-05-22T06:04:50Z) - Self-Supervised Representation Learning on Document Images [8.927538538637783]
パッチベースの事前学習は,異なる構造特性とサンプル内セマンティック情報が乏しいため,文書画像上では不十分であることを示す。
そこで本稿では,Tobacco-3482画像分類タスクの性能向上のための2つのコンテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2020-04-18T10:14:06Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。