論文の概要: Self-Supervised Vision Transformers for Writer Retrieval
- arxiv url: http://arxiv.org/abs/2409.00751v1
- Date: Sun, 1 Sep 2024 15:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 09:11:31.842295
- Title: Self-Supervised Vision Transformers for Writer Retrieval
- Title(参考訳): 著者検索のための自己監督型視覚変換器
- Authors: Tim Raven, Arthur Matei, Gernot A. Fink,
- Abstract要約: Vision Transformer (ViT) に基づく手法は、多くの領域で最先端のパフォーマンスを実現している。
本稿では,VLADエンコーディングを用いてVTから特徴を抽出し,それらを集約する手法を提案する。
著者検索の文脈において,VTのクラストークンを使用するよりも,局所的な前景特徴の抽出の方が優れていることを示す。
- 参考スコア(独自算出の注目度): 2.949446809950691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While methods based on Vision Transformers (ViT) have achieved state-of-the-art performance in many domains, they have not yet been applied successfully in the domain of writer retrieval. The field is dominated by methods using handcrafted features or features extracted from Convolutional Neural Networks. In this work, we bridge this gap and present a novel method that extracts features from a ViT and aggregates them using VLAD encoding. The model is trained in a self-supervised fashion without any need for labels. We show that extracting local foreground features is superior to using the ViT's class token in the context of writer retrieval. We evaluate our method on two historical document collections. We set a new state-at-of-art performance on the Historical-WI dataset (83.1\% mAP), and the HisIR19 dataset (95.0\% mAP). Additionally, we demonstrate that our ViT feature extractor can be directly applied to modern datasets such as the CVL database (98.6\% mAP) without any fine-tuning.
- Abstract(参考訳): Vision Transformer (ViT) に基づく手法は、多くのドメインで最先端のパフォーマンスを実現しているが、ライター検索の分野ではまだうまく適用されていない。
この分野は、畳み込みニューラルネットワークから抽出された手作りの特徴や特徴を用いた手法によって支配されている。
本稿では,このギャップを埋め,VLADエンコーディングを用いてVTから特徴を抽出し,それらを集約する新しい手法を提案する。
モデルはラベルを必要とせずに自己管理的な方法で訓練される。
著者検索の文脈において,VTのクラストークンを使用するよりも,局所的な前景特徴の抽出の方が優れていることを示す。
本手法を2つの歴史的文書コレクションで評価する。
履歴WIデータセット(83.1\% mAP)とHisIR19データセット(95.0\% mAP)に新しい最先端のパフォーマンスを設定した。
さらに, CVLデータベース (98.6\% mAP) などの最新のデータセットに対して, 微調整なしで直接ViT特徴抽出器を適用できることを実証した。
関連論文リスト
- VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - HTR-VT: Handwritten Text Recognition with Vision Transformer [7.997204893256558]
手書き文字認識における視覚変換器(ViT)の適用について検討する。
以前のトランスフォーマーベースのモデルでは、外部データや大規模なデータセットの広範な事前トレーニングが必要だった。
元のパッチ埋め込みの代わりに特徴抽出にConAwareal Neural Network(CNN)を導入し,シャープネス最小化(SAM)エンコーダを用いることで,モデルがフラットなミニマに向けて収束することを保証している。
論文 参考訳(メタデータ) (2024-09-13T06:46:23Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Attention Guided CAM: Visual Explanations of Vision Transformer Guided
by Self-Attention [2.466595763108917]
本稿では,ViT に適応した注意誘導型可視化手法を提案する。
本手法は,クラスラベルのみを用いて,高精度なセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスを提供する。
論文 参考訳(メタデータ) (2024-02-07T03:43:56Z) - IML-ViT: Benchmarking Image Manipulation Localization by Vision
Transformer [26.93638840931684]
高度な画像改ざん技術はマルチメディアの信頼性に挑戦している。
優れたIMLモデルとは何か?答はアーティファクトをキャプチャする方法にある。
我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-27T13:49:27Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Test-Time Adaptation for Visual Document Understanding [34.79168501080629]
DocTTAは文書に対する新しいテスト時間適応手法である。
未ラベルのターゲット文書データを使用して、ソースフリーのドメイン適応を行う。
各種のVDUタスクに対して,既存の公開データセットを用いた新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2022-06-15T01:57:12Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。