論文の概要: SAGHOG: Self-Supervised Autoencoder for Generating HOG Features for Writer Retrieval
- arxiv url: http://arxiv.org/abs/2404.17221v1
- Date: Fri, 26 Apr 2024 07:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 13:44:15.346619
- Title: SAGHOG: Self-Supervised Autoencoder for Generating HOG Features for Writer Retrieval
- Title(参考訳): SAGHOG: 著者検索のためのHOG機能を生成するセルフスーパービジョンオートエンコーダ
- Authors: Marco Peer, Florian Kleber, Robert Sablatnig,
- Abstract要約: SAGHOGは、二項化入力画像のHOG特徴を用いた著者検索のための自己教師付き事前学習戦略である。
SAGHOGは、予め訓練されたエンコーダに符号化層としてNetRVLADを付加することにより微調整される。
ヒストリー-WI,HisFrag20,GRK-Papyriの3つの歴史的データセットに対するアプローチの評価は,著者検索におけるSAGHOGの有効性を実証する。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces SAGHOG, a self-supervised pretraining strategy for writer retrieval using HOG features of the binarized input image. Our preprocessing involves the application of the Segment Anything technique to extract handwriting from various datasets, ending up with about 24k documents, followed by training a vision transformer on reconstructing masked patches of the handwriting. SAGHOG is then finetuned by appending NetRVLAD as an encoding layer to the pretrained encoder. Evaluation of our approach on three historical datasets, Historical-WI, HisFrag20, and GRK-Papyri, demonstrates the effectiveness of SAGHOG for writer retrieval. Additionally, we provide ablation studies on our architecture and evaluate un- and supervised finetuning. Notably, on HisFrag20, SAGHOG outperforms related work with a mAP of 57.2 % - a margin of 11.6 % to the current state of the art, showcasing its robustness on challenging data, and is competitive on even small datasets, e.g. GRK-Papyri, where we achieve a Top-1 accuracy of 58.0%.
- Abstract(参考訳): 本稿では、二項化入力画像のHOG特徴を用いた著者検索のための自己教師付き事前学習戦略であるSAGHOGを紹介する。
我々の前処理では、Segment Anything技術を用いて様々なデータセットから手書きを抽出し、最終的に約24kの文書を作成し、その後、手書きのマスク付きパッチを再構築するビジョントランスフォーマーを訓練する。
SAGHOGは、事前訓練されたエンコーダに符号化層としてNetRVLADを付加することにより微調整される。
ヒストリー-WI,HisFrag20,GRK-Papyriの3つの歴史的データセットに対するアプローチの評価は,著者検索におけるSAGHOGの有効性を実証する。
さらに、アーキテクチャに関するアブレーション研究を行い、教師なしおよび教師なしの微調整を評価する。
特にHisFrag20では、SAGHOGが関連する作業を57.2%のmAPで上回り、現在の最先端に11.6%のマージンを与え、挑戦的なデータに頑健さを示し、小さなデータセット(例えばGRK-Papyri)でも競合し、58.0%のTop-1精度を達成した。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning [17.83428132220955]
Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という事前検索フレームワークを提案する。
PG-RAGは、LLMを学生として、豊富な原材料を提供することで概念化している。
PG-RAGは、検索フェーズの間、ノートをめくると人間の行動を模倣する。
論文 参考訳(メタデータ) (2024-05-27T08:26:45Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z) - KOSMOS-2.5: A Multimodal Literate Model [136.96172068766285]
テキスト集約画像の機械読取のためのマルチモーダルリテラルモデル KOSMOS-2.5 を提案する。
KOSMOS-2.5は2つの異なる相補的な転写タスクに優れる。
我々は文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネラリストを生み出した。
論文 参考訳(メタデータ) (2023-09-20T15:50:08Z) - Feature Mixing for Writer Retrieval and Identification on Papyri
Fragments [0.7614628596146599]
本稿では,パピルスの書き手検索と識別のためのディープラーニングに基づくアプローチを提案する。
本稿では,残骨と特徴混合ステージを組み合わせ,検索性能を向上させるニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-22T14:55:01Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Dense Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
本稿では,高密度ガウス過程(GP)回帰に基づく数発のセグメンテーション法を提案する。
GPの高次元出力空間を学習するために,提案手法のエンドツーエンド学習機能を利用する。
提案手法では,PASCAL-5$i$とCOCO-20$i$のベンチマークで,1ショットと5ショットのFSSをそれぞれ新たな最先端に設定する。
論文 参考訳(メタデータ) (2021-10-07T17:57:54Z) - SUM: A Benchmark Dataset of Semantic Urban Meshes [3.001335226051674]
本稿では、意味的都市メッシュの新しいベンチマークデータセット、新しい半自動アノテーションフレームワーク、および3Dメッシュのためのオープンソースアノテーションツールを紹介します。
特に我々のデータセットはヘルシンキ(フィンランド)の約4km2で、6つのクラスでカバーしています。
注釈付きデータセット上のいくつかの代表的な3Dセマンティックセグメンテーション手法のパフォーマンスを比較します。
論文 参考訳(メタデータ) (2021-02-27T23:26:21Z) - Attention-based Fully Gated CNN-BGRU for Russian Handwritten Text [0.5371337604556311]
本研究は、カザフ語とロシア語で訓練されたアテンションエンコーダ・デコーダネットワークを用いた手書きテキストのタスクにアプローチする。
我々は,複数の双方向GRUと注意機構をサポートした,完全ゲートCNNに基づく新しいディープニューラルネットワークモデルを開発した。
我々の研究は、HKRデータセットに関する最初の研究であり、既存のほとんどのモデルに最先端の結果を示す。
論文 参考訳(メタデータ) (2020-08-12T15:14:47Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。