論文の概要: ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents
- arxiv url: http://arxiv.org/abs/2303.03127v1
- Date: Mon, 6 Mar 2023 13:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:06:49.456711
- Title: ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents
- Title(参考訳): st-keys:歴史文書におけるキーワードスポッティングのための自己教師付きトランスフォーマー
- Authors: Sana Khamekhem Jemni, Sourour Ammar, Mohamed Ali Souibgui, Yousri
Kessentini, Abbas Cheddad
- Abstract要約: 歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
- 参考スコア(独自算出の注目度): 3.9688530261646653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyword spotting (KWS) in historical documents is an important tool for the
initial exploration of digitized collections. Nowadays, the most efficient KWS
methods are relying on machine learning techniques that require a large amount
of annotated training data. However, in the case of historical manuscripts,
there is a lack of annotated corpus for training. To handle the data scarcity
issue, we investigate the merits of the self-supervised learning to extract
useful representations of the input data without relying on human annotations
and then using these representations in the downstream task. We propose
ST-KeyS, a masked auto-encoder model based on vision transformers where the
pretraining stage is based on the mask-and-predict paradigm, without the need
of labeled data. In the fine-tuning stage, the pre-trained encoder is
integrated into a siamese neural network model that is fine-tuned to improve
feature embedding from the input images. We further improve the image
representation using pyramidal histogram of characters (PHOC) embedding to
create and exploit an intermediate representation of images based on text
attributes. In an exhaustive experimental evaluation on three widely used
benchmark datasets (Botany, Alvermann Konzilsprotokolle and George Washington),
the proposed approach outperforms state-of-the-art methods trained on the same
datasets.
- Abstract(参考訳): 歴史的文書中のキーワードスポッティング(kws)は、デジタル化されたコレクションの初期探索のための重要なツールである。
今日では、最も効率的なKWS手法は、大量の注釈付きトレーニングデータを必要とする機械学習技術に依存している。
しかし、歴史写本の場合、訓練のための注釈付きコーパスが欠如している。
データの不足問題に対処するために,人間のアノテーションに頼らずに入力データの有用な表現を抽出するために,自己教師付き学習のメリットを調査し,それらの表現を下流タスクで利用する。
ラベル付きデータを必要としないマスク・アンド・予測パラダイムに基づく事前学習ステージである視覚トランスフォーマに基づくマスク付きオートエンコーダモデルであるst-keysを提案する。
微調整段階において、プリトレーニングされたエンコーダは、入力画像からの特徴埋め込みを改善するために微調整されたシアムニューラルネットワークモデルに統合される。
さらに,文字のピラミッドヒストグラム(PHOC)を用いた画像表現を改善し,テキスト属性に基づく画像の中間表現を作成し,活用する。
広く使用されている3つのベンチマークデータセット(Botany、Alvermann Konzilsprotokolle、George Washington)に対する徹底的な実験的評価では、提案手法は同一データセット上でトレーニングされた最先端の手法よりも優れている。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Position Prediction as an Effective Pretraining Strategy [20.925906203643883]
本稿では,コンテンツからの位置を予測し,位置情報を提供することなく,コンテンツを再構築する手法を提案する。
提案手法は,教師なし/自己教師付き事前学習手法に匹敵する,強い教師付きトレーニングベースラインの改善をもたらす。
論文 参考訳(メタデータ) (2022-07-15T17:10:48Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - How does a Pre-Trained Transformer Integrate Contextual Keywords?
Application to Humanitarian Computing [0.0]
本稿では,各ツイートに危機イベントタイプを追加して人道的分類タスクを改善する方法について述べる。
これは、提案されたニューラルネットワークアプローチが、Crisis Benchmarkの特殊性を部分的に過度に適合しているかを示している。
論文 参考訳(メタデータ) (2021-11-07T11:24:08Z) - Pretrained Encoders are All You Need [23.171881382391074]
自己監督型モデルでは、さまざまな設定への転送が成功している。
また、自己教師付き技術を用いた微調整事前学習表現についても検討する。
その結果、事前学習された表現は、ドメイン固有データに基づいて訓練された最先端の自己管理手法と同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-09T15:27:25Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。