論文の概要: A Challenging Benchmark of Anime Style Recognition
- arxiv url: http://arxiv.org/abs/2204.14034v1
- Date: Fri, 29 Apr 2022 12:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 14:39:19.633285
- Title: A Challenging Benchmark of Anime Style Recognition
- Title(参考訳): アニメスタイル認識の難解なベンチマーク
- Authors: Haotang Li, Shengtao Guo, Kailin Lyu, Xiao Yang, Tianchen Chen,
Jianqing Zhu, Huanqiang Zeng
- Abstract要約: 異なる役柄の2つの画像が与えられた場合、アニメスタイル認識(ASR)は、2つの絵が同じ作品のものであるかどうかを判断するために抽象的な絵画スタイルを学習することを目的としている。
顔認識、虹彩認識、人物の再識別などの生体認証とは異なり、ASRははるかに大きな意味的ギャップに悩まされるが、あまり注目されない。
- 参考スコア(独自算出の注目度): 12.380004578102566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given two images of different anime roles, anime style recognition (ASR) aims
to learn abstract painting style to determine whether the two images are from
the same work, which is an interesting but challenging problem. Unlike
biometric recognition, such as face recognition, iris recognition, and person
re-identification, ASR suffers from a much larger semantic gap but receives
less attention. In this paper, we propose a challenging ASR benchmark. Firstly,
we collect a large-scale ASR dataset (LSASRD), which contains 20,937 images of
190 anime works and each work at least has ten different roles. In addition to
the large-scale, LSASRD contains a list of challenging factors, such as complex
illuminations, various poses, theatrical colors and exaggerated compositions.
Secondly, we design a cross-role protocol to evaluate ASR performance, in which
query and gallery images must come from different roles to validate an ASR
model is to learn abstract painting style rather than learn discriminative
features of roles. Finally, we apply two powerful person re-identification
methods, namely, AGW and TransReID, to construct the baseline performance on
LSASRD. Surprisingly, the recent transformer model (i.e., TransReID) only
acquires a 42.24% mAP on LSASRD. Therefore, we believe that the ASR task of a
huge semantic gap deserves deep and long-term research. We will open our
dataset and code at https://github.com/nkjcqvcpi/ASR.
- Abstract(参考訳): 異なるアニメの役割の2つのイメージを与えられたアニメスタイル認識(ASR)は、抽象的な絵画スタイルを学習し、2つのイメージが同じ作品から来ているかどうかを判断することを目的としている。
顔認識、虹彩認識、人物の再識別などの生体認証とは異なり、ASRははるかに大きな意味的ギャップに悩まされるが、あまり注目されない。
本稿では,ASRベンチマークを提案する。
まず,190個のアニメ作品の20,937枚の画像と,少なくとも10個の異なる役割を持つ大規模ASRデータセット(LSASRD)を収集する。
大規模な作品に加えて、LSASRDには、複雑な照明、様々なポーズ、劇場色、誇張された構成など、困難な要素のリストが含まれている。
次に,asrモデルが役割の識別的特徴を学ぶのではなく,抽象的な絵画スタイルを学ぶことを検証するために,問合せとギャラリーイメージが異なる役割から来なければならないasrの性能を評価するためのクロスロールプロトコルを設計する。
最後に、LSASRDのベースライン性能を構築するために、2つの強力な人物識別手法、すなわちAGWとTransReIDを適用した。
驚いたことに、TransReIDはLSASRD上で42.24%のmAPしか取得していない。
したがって、大きな意味的ギャップのASRタスクは、深く長期的な研究に値すると信じている。
データセットとコードはhttps://github.com/nkjcqvcpi/asrで公開します。
関連論文リスト
- RaSa: Relation and Sensitivity Aware Representation Learning for
Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。
RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。
実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文 参考訳(メタデータ) (2023-05-23T03:53:57Z) - CiaoSR: Continuous Implicit Attention-in-Attention Network for
Arbitrary-Scale Image Super-Resolution [158.2282163651066]
本稿ではCiaoSRと呼ばれる連続的な暗黙の注意-注意ネットワークを提案する。
我々は、周辺地域の特徴のアンサンブル重みを学習するために、暗黙の注意ネットワークを明示的に設計する。
我々は、この暗黙の注意ネットワークにスケールアウェアの注意を埋め込んで、追加の非ローカル情報を活用する。
論文 参考訳(メタデータ) (2022-12-08T15:57:46Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Resolution-invariant Person ReID Based on Feature Transformation and
Self-weighted Attention [14.777001614779806]
Person Re-identification (ReID) は、画像やビデオのシーケンスで同一人物と一致することを目的としたコンピュータビジョンタスクである。
本研究では,ReID特徴変換(RAFT)モジュールとSWA(Self-weighted attention)ReIDモジュールを備えた,新しい2ストリームネットワークを提案する。
どちらのモジュールも、解決不変表現を得るために共同で訓練される。
論文 参考訳(メタデータ) (2021-01-12T15:22:41Z) - Adversarial Multi-scale Feature Learning for Person Re-identification [0.0]
person reidは、2つの画像が同一人物に対応するかどうかを判断するために、人物画像間の視覚的類似度を正確に測定することを目指している。
textbf1)という2つの視点からPerson ReIDシステムの性能向上を提案します。
クロススケール情報伝搬(CSIP)とマルチスケール機能融合(MSFF)から構成されるマルチスケール特徴学習(MSFL)は、異なるスケールで動的に融合する。
マルチスケールグラデーションレギュラライザー(MSGR)は、ID関連要因を強調し、非関連要因を逆転的に無視する。
論文 参考訳(メタデータ) (2020-12-28T02:18:00Z) - Self-Supervised Ranking for Representation Learning [108.38993212650577]
本稿では、画像検索コンテキストにおけるランキング問題として定式化することで、自己教師型表現学習のための新しいフレームワークを提案する。
我々は、画像のランダムなビューが正に関連していると考えられるランク付けのための平均精度(AP)を最大化し、表現エンコーダを訓練する。
原則として、ランク付け基準を使用することで、対象中心のキュレートされたデータセットへの依存を排除します。
論文 参考訳(メタデータ) (2020-10-14T17:24:56Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z) - Uncertainty-Aware Multi-Shot Knowledge Distillation for Image-Based
Object Re-Identification [93.39253443415392]
各画像の特徴学習を指導するために,同一のアイデンティティのマルチショットを活用することを提案する。
それは、同一物体の複数の画像から包括的特徴を学習する教師ネットワーク(T-net)と、1つの画像を入力として取る学生ネットワーク(S-net)から構成される。
提案手法の有効性を,一般的な車種と個人用車種に検証した。
論文 参考訳(メタデータ) (2020-01-15T09:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。