論文の概要: DAF:re: A Challenging, Crowd-Sourced, Large-Scale, Long-Tailed Dataset
For Anime Character Recognition
- arxiv url: http://arxiv.org/abs/2101.08674v1
- Date: Thu, 21 Jan 2021 15:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:54:18.027593
- Title: DAF:re: A Challenging, Crowd-Sourced, Large-Scale, Long-Tailed Dataset
For Anime Character Recognition
- Title(参考訳): DAF:アニメキャラクタ認識のためのクラウドソース、大規模、長期のデータセット
- Authors: Edwin Arkel Rios, Wen-Huang Cheng, Bo-Cheng Lai
- Abstract要約: 3000以上のクラスに500K近い画像が散在する大規模でクラウドソーシングされた長尾データセットを紹介します。
CNNベースのResNetsやViT(Self-attention based Vision Transformer)など、様々な分類モデルを用いてDAF:reおよび類似データセットの実験を行います。
私たちの結果は、実質的に異なるドメインデータセット上のViTモデルの一般化および転送学習特性に関する新しい洞察を与えます。
- 参考スコア(独自算出の注目度): 15.120571134807186
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work we tackle the challenging problem of anime character
recognition. Anime, referring to animation produced within Japan and work
derived or inspired from it. For this purpose we present DAF:re
(DanbooruAnimeFaces:revamped), a large-scale, crowd-sourced, long-tailed
dataset with almost 500 K images spread across more than 3000 classes.
Additionally, we conduct experiments on DAF:re and similar datasets using a
variety of classification models, including CNN based ResNets and
self-attention based Vision Transformer (ViT). Our results give new insights
into the generalization and transfer learning properties of ViT models on
substantially different domain datasets from those used for the upstream
pre-training, including the influence of batch and image size in their
training. Additionally, we share our dataset, source-code, pre-trained
checkpoints and results, as Animesion, the first end-to-end framework for
large-scale anime character recognition: https://github.com/arkel23/animesion
- Abstract(参考訳): 本研究では,アニメキャラクタ認識の課題に挑戦する。
アニメ(アニメ)とは、日本国内で制作されたアニメーションをいう。
この目的のために、DAF:re(DanbooruAnimeFaces:revamped)という、3000以上のクラスに約500Kの画像が散在する大規模でクラウドソースのロングテールデータセットを提示する。
さらに、CNNベースのResNetsや自己注意に基づく視覚変換器(ViT)など、さまざまな分類モデルを用いて、DAF:reと類似したデータセットの実験を行う。
以上の結果から,VTモデルのアップストリーム事前学習用データセットとは大きく異なる領域データセットに対する一般化と伝達学習特性について,バッチや画像サイズの影響など,新たな知見が得られた。
さらに、データセット、ソースコード、事前トレーニングされたチェックポイントと結果も、大規模なアニメ文字認識のための最初のエンドツーエンドフレームワークであるAnimesionとして共有しています。
関連論文リスト
- NOVA-3D: Non-overlapped Views for 3D Anime Character Reconstruction [14.509202872426942]
3D textbf Anime character Reconstruction (NOVA-3D) の非オーバーラップビュー
新しいフレームワークは、3D一貫性のある特徴を効果的に学習するためのビュー認識機能融合法を実装している。
実験では、特筆すべき細かな忠実さを持つアニメキャラクターの優れた再構成が示されている。
論文 参考訳(メタデータ) (2024-05-21T05:31:03Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - AnimeDiffusion: Anime Face Line Drawing Colorization via Diffusion
Models [24.94532405404846]
本稿では,アニメの顔線描画色を自動生成する拡散モデルを用いたAnimeDiffusionという新しい手法を提案する。
我々は31696のトレーニングデータと579のテストデータを含むアニメの顔線描画カラー化ベンチマークデータセットを実行する。
アニメフェース描画のカラー化において,AnimeDiffusionは最先端のGANモデルよりも優れることを示す。
論文 参考訳(メタデータ) (2023-03-20T14:15:23Z) - AnimeRun: 2D Animation Visual Correspondence from Open Source 3D Movies [98.65469430034246]
既存の2次元漫画のデータセットは、単純なフレーム構成と単調な動きに悩まされている。
我々は,オープンソースの3D映画を2Dスタイルのフルシーンに変換することによって,新しい2Dアニメーション視覚対応データセットAnimeRunを提案する。
分析の結果,提案したデータセットは画像合成において実際のアニメに似るだけでなく,既存のデータセットと比較してよりリッチで複雑な動きパターンを持つことがわかった。
論文 参考訳(メタデータ) (2022-11-10T17:26:21Z) - Collaborative Neural Rendering using Anime Character Sheets [1.2891210250935146]
いくつかの参照画像から特定のポーズに対する新しい画像を生成するコラボレーティブ・ニューラルレンダリング(CoNR)手法を提案する。
CoNRは、パイプライン内で統一されたUVマッピングを作成するのを避けるために、コンパクトで容易に達成できるランドマークエンコーディングを使用している。
我々は,70万枚以上の手書き画像と多彩なポーズの合成画像を含む文字シートデータセットを収集した。
論文 参考訳(メタデータ) (2022-07-12T08:21:35Z) - Scaling Up Vision-Language Pre-training for Image Captioning [51.639880603821446]
画像キャプション用LargEスケールiMageカプティオナーであるLEMONについて紹介する。
いくつかの主要な画像キャプションベンチマークにおいて,LEMONが新たな芸術性を達成することを示す。
論文 参考訳(メタデータ) (2021-11-24T02:30:22Z) - Playing for 3D Human Recovery [88.91567909861442]
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。
具体的には,GTA-Vゲームエンジンで生成された大規模3次元人文データセットであるGTA-Humanをコントリビュートする。
GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-10-14T17:49:42Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z) - Surpassing Real-World Source Training Data: Random 3D Characters for
Generalizable Person Re-Identification [109.68210001788506]
本研究では,大規模人物再識別データセットを,実際の監視に類似したセットアップに従って自動生成することを提案する。
私たちはUnity3Dを使って様々な仮想環境をシミュレートし、実際の監視システムに似たカメラネットワークをカスタマイズした。
その結果、8000のアイデンティティを持つ1,801,816人の人物画像を持つRandPersonという仮想データセットが得られた。
論文 参考訳(メタデータ) (2020-06-23T05:38:47Z) - ERA: A Dataset and Deep Learning Benchmark for Event Recognition in
Aerial Videos [28.598710179447803]
本稿では,遠隔センシングコミュニティにおける非拘束空中ビデオにおけるイベント認識の新たな課題について紹介する。
ERA(Event Recognition in Aerial Video)という,大規模で人間による注釈付きデータセットを提案する。
ERAデータセットは、クラス内の大きなバリエーションとクラス間の類似性を持つように設計されている。
論文 参考訳(メタデータ) (2020-01-30T15:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。