論文の概要: Page Classification for Print Imaging Pipeline
- arxiv url: http://arxiv.org/abs/2504.03020v1
- Date: Thu, 03 Apr 2025 20:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:04.256703
- Title: Page Classification for Print Imaging Pipeline
- Title(参考訳): 印刷画像パイプラインのページ分類
- Authors: Shaoyuan Xu, Cheng Lu, Mark Shaw, Peter Bauer, Jan P. Allebach,
- Abstract要約: 我々は以前,テキストのみ,画像のみ,あるいはその両方を混合した画像の分類を行う,SVMベースの分類手法を考案した。
本稿では,より高度なSVMに基づく分類手法を開発し,さらに4つの新機能を用いて5種類の画像の分類を行う。
- 参考スコア(独自算出の注目度): 5.339207224069799
- License:
- Abstract: Digital copiers and printers are widely used nowadays. One of the most important things people care about is copying or printing quality. In order to improve it, we previously came up with an SVM-based classification method to classify images with only text, only pictures or a mixture of both based on the fact that modern copiers and printers are equipped with processing pipelines designed specifically for different kinds of images. However, in some other applications, we need to distinguish more than three classes. In this paper, we develop a more advanced SVM-based classification method using four more new features to classify 5 types of images which are text, picture, mixed, receipt and highlight.
- Abstract(参考訳): 近年はデジタルコンパニエやプリンターが広く使われている。
人々が関心を持っている最も重要なことのひとつは、コピーや印刷の質です。
そこで我々は以前,SVMをベースとした画像分類手法を考案し,テキストのみ,画像のみ,あるいは両者を混在させた画像の分類を,現代のコーパとプリンタが,異なる種類の画像用に設計された処理パイプラインを備えているという事実に基づいて検討した。
しかし、他のいくつかのアプリケーションでは、3つ以上のクラスを区別する必要があります。
本稿では,テキスト,画像,混合,レシート,ハイライトの5種類の画像の分類に,さらに4つの新機能を用いたより高度なSVM分類手法を提案する。
関連論文リスト
- Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation [12.994898879803642]
CLIP-Decoderは最先端のML-Decoderアテンションベースのヘッドに基づく新しい手法である。
CLIP-Decoderにマルチモーダル表現学習を導入し、テキストエンコーダを用いてテキスト特徴と画像特徴抽出のための画像エンコーダを抽出する。
本手法は,ゼロショット学習マルチラベル分類タスクにおける既存の手法と比較して,絶対的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-06-21T02:19:26Z) - Exploiting LMM-based knowledge for image classification tasks [11.801596051153725]
画像のセマンティック記述の抽出にはMiniGPT-4モデルを用いる。
本稿では,MiniGPT-4の生成する意味記述に対応するテキスト埋め込みを得るために,テキストエンコーダを付加的に使用することを提案する。
3つのデータセットに対する実験的な評価は,LMMに基づく知識を活用した分類性能の向上を実証する。
論文 参考訳(メタデータ) (2024-06-05T08:56:24Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Inferring Prototypes for Multi-Label Few-Shot Image Classification with
Word Vector Guided Attention [45.6809084493491]
ML-FSIC (Multi-label few-shot Image Classification) は、画像に記述ラベルを割り当てるタスクである。
本稿では,ラベルの意味に関する事前知識の形式として,単語埋め込みを提案する。
我々のモデルは、モデルパラメータを微調整することなく、未確認ラベルのプロトタイプを推測することができる。
論文 参考訳(メタデータ) (2021-12-02T07:59:11Z) - MFNet: Multi-class Few-shot Segmentation Network with Pixel-wise Metric
Learning [34.059257121606336]
この研究は、まだほとんど探索されていない分野である少数ショットセマンティックセマンティックセグメンテーションに焦点を当てている。
まず,マルチウェイ符号化とデコードアーキテクチャを提案する。このアーキテクチャは,マルチスケールクエリ情報とマルチクラスサポート情報を1つのクエリ支援埋め込みに効果的に融合する。
標準ベンチマーク PASCAL-5i と COCO-20i による実験により, 数発のセグメンテーションにおいて, 本手法の利点が明らかに示された。
論文 参考訳(メタデータ) (2021-10-30T11:37:36Z) - Learning Meta-class Memory for Few-Shot Semantic Segmentation [90.28474742651422]
全てのクラスで共有可能なメタ情報であるメタクラスの概念を導入する。
本稿では,メタクラスメモリをベースとした少ショットセグメンテーション手法 (MM-Net) を提案する。
提案したMM-Netは1ショット設定でCOCOデータセット上で37.5%のmIoUを達成する。
論文 参考訳(メタデータ) (2021-08-06T06:29:59Z) - Printing and Scanning Attack for Image Counter Forensics [11.193867567895353]
画像の真正性を調べることは、操作ツールがよりアクセスしやすく、進歩するにつれて、ますます重要になっている。
近年の研究では、CNNをベースとした画像検出装置は操作の特定に成功しているが、敵の攻撃にも弱いことが示されている。
我々は、印刷とスキャンという、非常に確実な攻撃方法を探究する。
論文 参考訳(メタデータ) (2020-04-27T00:32:15Z) - Memory-Efficient Incremental Learning Through Feature Adaptation [71.1449769528535]
本稿では,以前学習したクラスから,画像の特徴記述子を保存するインクリメンタルラーニングのアプローチを提案する。
画像のより低次元の機能埋め込みを維持することで、メモリフットプリントが大幅に削減される。
実験の結果,インクリメンタルラーニングベンチマークにおいて,最先端の分類精度が得られた。
論文 参考訳(メタデータ) (2020-04-01T21:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。