論文の概要: FragNet: Writer Identification using Deep Fragment Networks
- arxiv url: http://arxiv.org/abs/2003.07212v2
- Date: Tue, 24 Mar 2020 15:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:30:54.361543
- Title: FragNet: Writer Identification using Deep Fragment Networks
- Title(参考訳): FragNet:Deep Fragment Networksを用いた作者識別
- Authors: Sheng He, Lambert Schomaker
- Abstract要約: 約1つの単語を含む単語またはテキストブロック画像に基づいて,著者識別のための新しいベンチマーク研究を提案する。
これらのワードイメージの強力な特徴を抽出するために、FragNetと呼ばれるディープニューラルネットワークを提案する。
提案手法は,単語とページイメージの両方に基づいて,著者識別のための効率的かつ堅牢な深層表現を生成することができることを示す。
- 参考スコア(独自算出の注目度): 8.071506311915398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writer identification based on a small amount of text is a challenging
problem. In this paper, we propose a new benchmark study for writer
identification based on word or text block images which approximately contain
one word. In order to extract powerful features on these word images, a deep
neural network, named FragNet, is proposed. The FragNet has two pathways:
feature pyramid which is used to extract feature maps and fragment pathway
which is trained to predict the writer identity based on fragments extracted
from the input image and the feature maps on the feature pyramid. We conduct
experiments on four benchmark datasets, which show that our proposed method can
generate efficient and robust deep representations for writer identification
based on both word and page images.
- Abstract(参考訳): 少量のテキストに基づく作者識別は難しい問題である。
本稿では,約1単語を含む単語またはテキストブロック画像に基づく著者識別のための新しいベンチマーク手法を提案する。
これらの単語画像から強力な特徴を抽出するために,fragnetという深層ニューラルネットワークが提案されている。
fragnetには2つの経路がある。 フィーチャーピラミッドは特徴マップを抽出するのに使われ、フラグメントパスは入力画像から抽出されたフラグメントと特徴ピラミッド上の特徴マップに基づいてライターのアイデンティティを予測するように訓練されている。
提案手法は,単語とページイメージの両方に基づいて,著者識別のための効率的かつ堅牢な深層表現を生成することができることを示す。
関連論文リスト
- Attention based End to end network for Offline Writer Identification on Word level data [3.5829161769306244]
注意駆動型畳み込みニューラルネットワーク(CNN)に基づく著者識別システムを提案する。
このシステムは、単語画像から抽出された断片として知られる画像セグメントを利用して、ピラミッドベースの戦略を用いて訓練されている。
提案アルゴリズムの有効性を3つのベンチマークデータベースで評価した。
論文 参考訳(メタデータ) (2024-04-11T09:41:14Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Siamese based Neural Network for Offline Writer Identification on word
level data [7.747239584541488]
入力語画像に基づいて文書の著者を特定する新しい手法を提案する。
本手法はテキスト独立であり,入力画像のサイズに制約を課さない。
論文 参考訳(メタデータ) (2022-11-17T10:01:46Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Semantically Self-Aligned Network for Text-to-Image Part-aware Person
Re-identification [78.45528514468836]
ReID(Text-to-image person re-identification)は、テキスト記述を用いて興味のある人物を含む画像を検索することを目的としている。
上記の問題に対処するために,Semantically Self-Aligned Network (SSAN)を提案する。
ICFG-PEDESという新しいデータベースを構築。
論文 参考訳(メタデータ) (2021-07-27T08:26:47Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。