論文の概要: Writer Identification and Writer Retrieval Based on NetVLAD with
Re-ranking
- arxiv url: http://arxiv.org/abs/2012.06186v3
- Date: Mon, 22 Feb 2021 18:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:17:30.653586
- Title: Writer Identification and Writer Retrieval Based on NetVLAD with
Re-ranking
- Title(参考訳): 再ランク付きNetVLADに基づく書き手識別と書き手検索
- Authors: Shervin Rasoulzadeh, Bagher Babaali
- Abstract要約: 文書解析と認識の分野では,著者同定と著者検索が課題となっている。
特徴抽出器としてResNet-20からなる統一ニューラルネットワークアーキテクチャを採用することにより,新たなパイプラインを提案する。
k$-reciprocal neighbors に基づく識別と検索のタスクに対して,新たな階層戦略が導入された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses writer identification and writer retrieval which is
considered as a challenging problem in the document analysis and recognition
field. In this work, a novel pipeline is proposed for the problem at hand by
employing a unified neural network architecture consisting of the ResNet-20 as
a feature extractor and an integrated NetVLAD layer, inspired by the vector of
locally aggregated descriptors (VLAD), in the head of the latter part. Having
defined this architecture, the triplet semi-hard loss function is used to
directly learn an embedding for individual input image patches. Subsequently,
generalized max-pooling technique is employed for the aggregation of embedded
descriptors of each handwritten image. Also, a novel re-ranking strategy is
introduced for the task of identification and retrieval based on $k$-reciprocal
nearest neighbors, and it is shown that the pipeline can benefit tremendously
from this step. Experimental evaluation has been done on the three publicly
available datasets: the ICDAR 2013, CVL, and KHATT datasets. Results indicate
that while we perform comparably to the state-of-the-art on the KHATT, our
writer identification and writer retrieval pipeline achieves superior
performance on the ICDAR 2013 and CVL datasets in terms of mAP.
- Abstract(参考訳): 本稿では,文書解析と認識の分野で問題となっている著者識別と著者検索について述べる。
本研究では,ResNet-20を特徴抽出器として用い,局所集約記述子(VLAD)のベクトルにインスパイアされたNetVLAD層を統合した統合ニューラルネットワークアーキテクチャを用いて,この問題に対する新しいパイプラインを提案する。
このアーキテクチャを定義した三重項セミハード損失関数は、個々の入力画像パッチの埋め込みを直接学習するために使用される。
その後、各手書き画像の埋め込み記述子の集約に一般化された最大プール技術が使用される。
また,$k$-reciprocal Near neighbors に基づく識別と検索のタスクに対して,新たな階層化戦略を導入し,このステップからパイプラインのメリットを大いに享受できることが示唆された。
ICDAR 2013、CVL、KHATTデータセットの3つの公開データセットで実験的評価が行われた。
以上の結果から,我々はKHATTの最先端技術に相容れない性能を保ちながら,mAPの観点からICDAR 2013およびCVLデータセット上で優れた性能を達成していることがわかった。
関連論文リスト
- RoIPoly: Vectorized Building Outline Extraction Using Vertex and Logit Embeddings [5.093758132026397]
航空画像や衛星画像から建物概要を抽出する新しいクエリベースの手法を提案する。
クエリとして各ポリゴンを定式化し、潜在的ビルディングの最も関連性の高い領域に対してクエリの注意を拘束する。
本手法は,2次元フロアプラン再構築データセットであるStructured3Dを用いて,ベクトル化建物アウトライン抽出データセット(CrowdAI)と2次元フロアプラン再構築データセット(Structured3D)について評価する。
論文 参考訳(メタデータ) (2024-07-20T16:12:51Z) - Offline Writer Identification Using Convolutional Neural Network
Activation Features [6.589323210821262]
畳み込みニューラルネットワーク(CNN)は、最近、大規模な画像分類のための最先端のツールとなっている。
本研究では,CNNのアクティベーション機能を,ライター識別のためのローカル記述子として用いることを提案する。
ICDAR 2013ベンチマークデータベースとCVLデータセットの2つの公開データセットに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-26T21:16:14Z) - PointHR: Exploring High-Resolution Architectures for 3D Point Cloud
Segmentation [77.44144260601182]
3Dポイントクラウドセグメンテーションのための高分解能アーキテクチャについて検討する。
我々は、特徴抽出のためのknnベースのシーケンス演算子と差分再サンプリング演算子を含む、PointHRという名前の統一パイプラインを提案する。
S3DISとScanNetV2データセットを用いて,これらのアーキテクチャを高密度点雲解析のために評価する。
論文 参考訳(メタデータ) (2023-10-11T09:29:17Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - Efficient Match Pair Retrieval for Large-scale UAV Images via Graph
Indexed Global Descriptor [9.402103660431791]
本稿では,効率的なマッチングペア検索手法を提案し,並列SfM再構成のための統合ワークフローを実装した。
提案手法は3つの大規模データセットを用いて検証されている。
論文 参考訳(メタデータ) (2023-07-10T12:41:55Z) - Towards Writer Retrieval for Historical Datasets [0.6445605125467572]
キーポイントで検出されたクラスタリングSIFT記述子に基づく文字検索のための教師なしアプローチ。
残余ネットワークに続いて提案したNetRVLADは,複雑さを低減した符号化層である。
このアプローチは、現代的なデータセットでも同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-09T11:44:44Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Deep Structured Instance Graph for Distilling Object Detectors [82.16270736573176]
本稿では,検出システム内の情報を利用して,検出知識の蒸留を容易にするための簡単な知識構造を提案する。
我々は,1段と2段の両方の検出器上で,多様な学生-教師ペアによるCOCOオブジェクト検出の課題に対して,新しい最先端の成果を達成した。
論文 参考訳(メタデータ) (2021-09-27T08:26:00Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Re-ranking for Writer Identification and Writer Retrieval [8.53463698903858]
我々は,k-相反的近傍関係に基づく再ランクステップが,著者識別に有利であることを示す。
これらの相互関係は、もともと提案されたような新しいベクトルにエンコードするか、クエリ拡張の観点でそれらを統合するかの2つの方法で利用します。
論文 参考訳(メタデータ) (2020-07-14T15:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。