論文の概要: A Challenging Benchmark of Anime Style Recognition
- arxiv url: http://arxiv.org/abs/2204.14034v1
- Date: Fri, 29 Apr 2022 12:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 14:39:19.633285
- Title: A Challenging Benchmark of Anime Style Recognition
- Title(参考訳): アニメスタイル認識の難解なベンチマーク
- Authors: Haotang Li, Shengtao Guo, Kailin Lyu, Xiao Yang, Tianchen Chen,
Jianqing Zhu, Huanqiang Zeng
- Abstract要約: 異なる役柄の2つの画像が与えられた場合、アニメスタイル認識(ASR)は、2つの絵が同じ作品のものであるかどうかを判断するために抽象的な絵画スタイルを学習することを目的としている。
顔認識、虹彩認識、人物の再識別などの生体認証とは異なり、ASRははるかに大きな意味的ギャップに悩まされるが、あまり注目されない。
- 参考スコア(独自算出の注目度): 12.380004578102566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given two images of different anime roles, anime style recognition (ASR) aims
to learn abstract painting style to determine whether the two images are from
the same work, which is an interesting but challenging problem. Unlike
biometric recognition, such as face recognition, iris recognition, and person
re-identification, ASR suffers from a much larger semantic gap but receives
less attention. In this paper, we propose a challenging ASR benchmark. Firstly,
we collect a large-scale ASR dataset (LSASRD), which contains 20,937 images of
190 anime works and each work at least has ten different roles. In addition to
the large-scale, LSASRD contains a list of challenging factors, such as complex
illuminations, various poses, theatrical colors and exaggerated compositions.
Secondly, we design a cross-role protocol to evaluate ASR performance, in which
query and gallery images must come from different roles to validate an ASR
model is to learn abstract painting style rather than learn discriminative
features of roles. Finally, we apply two powerful person re-identification
methods, namely, AGW and TransReID, to construct the baseline performance on
LSASRD. Surprisingly, the recent transformer model (i.e., TransReID) only
acquires a 42.24% mAP on LSASRD. Therefore, we believe that the ASR task of a
huge semantic gap deserves deep and long-term research. We will open our
dataset and code at https://github.com/nkjcqvcpi/ASR.
- Abstract(参考訳): 異なるアニメの役割の2つのイメージを与えられたアニメスタイル認識(ASR)は、抽象的な絵画スタイルを学習し、2つのイメージが同じ作品から来ているかどうかを判断することを目的としている。
顔認識、虹彩認識、人物の再識別などの生体認証とは異なり、ASRははるかに大きな意味的ギャップに悩まされるが、あまり注目されない。
本稿では,ASRベンチマークを提案する。
まず,190個のアニメ作品の20,937枚の画像と,少なくとも10個の異なる役割を持つ大規模ASRデータセット(LSASRD)を収集する。
大規模な作品に加えて、LSASRDには、複雑な照明、様々なポーズ、劇場色、誇張された構成など、困難な要素のリストが含まれている。
次に,asrモデルが役割の識別的特徴を学ぶのではなく,抽象的な絵画スタイルを学ぶことを検証するために,問合せとギャラリーイメージが異なる役割から来なければならないasrの性能を評価するためのクロスロールプロトコルを設計する。
最後に、LSASRDのベースライン性能を構築するために、2つの強力な人物識別手法、すなわちAGWとTransReIDを適用した。
驚いたことに、TransReIDはLSASRD上で42.24%のmAPしか取得していない。
したがって、大きな意味的ギャップのASRタスクは、深く長期的な研究に値すると信じている。
データセットとコードはhttps://github.com/nkjcqvcpi/asrで公開します。
関連論文リスト
- NSSR-DIL: Null-Shot Image Super-Resolution Using Deep Identity Learning [0.02932486408310998]
ISRタスクを学習するために,画像データセットに依存しない新しいISRアルゴリズムを提案する。
本稿では,劣化モデルと逆劣化モデルとの同一性を利用したDeep Identity Learningを紹介する。
提案したNSSR-DILモデルは、少なくとも10のオーダーで計算資源を少なくし、ベンチマークISRデータセット上での競合性能を示す。
論文 参考訳(メタデータ) (2024-09-17T03:43:07Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource [84.74855803555677]
我々はAnySRを導入し、既存の任意のスケールのSRメソッドを任意のソース実装に再構築する。
私たちのAnySRは、1)任意のスケールタスクを任意のリソース実装として構築し、追加のパラメータなしで小さなスケールのリソース要件を減らします。
その結果,AnySR は SISR タスクをより効率的な計算方法で実装し,既存の任意のスケールの SISR メソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-05T04:00:14Z) - RaSa: Relation and Sensitivity Aware Representation Learning for
Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。
RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。
実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文 参考訳(メタデータ) (2023-05-23T03:53:57Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Resolution-invariant Person ReID Based on Feature Transformation and
Self-weighted Attention [14.777001614779806]
Person Re-identification (ReID) は、画像やビデオのシーケンスで同一人物と一致することを目的としたコンピュータビジョンタスクである。
本研究では,ReID特徴変換(RAFT)モジュールとSWA(Self-weighted attention)ReIDモジュールを備えた,新しい2ストリームネットワークを提案する。
どちらのモジュールも、解決不変表現を得るために共同で訓練される。
論文 参考訳(メタデータ) (2021-01-12T15:22:41Z) - Self-Supervised Ranking for Representation Learning [108.38993212650577]
本稿では、画像検索コンテキストにおけるランキング問題として定式化することで、自己教師型表現学習のための新しいフレームワークを提案する。
我々は、画像のランダムなビューが正に関連していると考えられるランク付けのための平均精度(AP)を最大化し、表現エンコーダを訓練する。
原則として、ランク付け基準を使用することで、対象中心のキュレートされたデータセットへの依存を排除します。
論文 参考訳(メタデータ) (2020-10-14T17:24:56Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。