論文の概要: AnimeDL-2M: Million-Scale AI-Generated Anime Image Detection and Localization in Diffusion Era
- arxiv url: http://arxiv.org/abs/2504.11015v1
- Date: Tue, 15 Apr 2025 09:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:52.492206
- Title: AnimeDL-2M: Million-Scale AI-Generated Anime Image Detection and Localization in Diffusion Era
- Title(参考訳): AnimeDL-2M: 拡散時代のAI生成アニメ画像の検出と位置決定
- Authors: Chenyang Zhu, Xing Zhang, Yuyang Sun, Ching-Chun Chang, Isao Echizen,
- Abstract要約: 手描きアートワークとしてのAI生成画像の誤表現は、アニメコミュニティや業界に深刻な脅威をもたらす。
本稿では,アニメIMDLの包括的なアノテーションを用いた大規模ベンチマークであるAnimeDL-2Mを提案する。
また,アニメ映像の視覚的特徴に合わせた新しいモデルAniXploreを提案する。
- 参考スコア(独自算出の注目度): 11.94929097375473
- License:
- Abstract: Recent advances in image generation, particularly diffusion models, have significantly lowered the barrier for creating sophisticated forgeries, making image manipulation detection and localization (IMDL) increasingly challenging. While prior work in IMDL has focused largely on natural images, the anime domain remains underexplored-despite its growing vulnerability to AI-generated forgeries. Misrepresentations of AI-generated images as hand-drawn artwork, copyright violations, and inappropriate content modifications pose serious threats to the anime community and industry. To address this gap, we propose AnimeDL-2M, the first large-scale benchmark for anime IMDL with comprehensive annotations. It comprises over two million images including real, partially manipulated, and fully AI-generated samples. Experiments indicate that models trained on existing IMDL datasets of natural images perform poorly when applied to anime images, highlighting a clear domain gap between anime and natural images. To better handle IMDL tasks in anime domain, we further propose AniXplore, a novel model tailored to the visual characteristics of anime imagery. Extensive evaluations demonstrate that AniXplore achieves superior performance compared to existing methods. Dataset and code can be found in https://flytweety.github.io/AnimeDL2M/.
- Abstract(参考訳): 画像生成,特に拡散モデルの最近の進歩は,高度な偽造物を作成するための障壁を著しく減らし,画像操作の検出と局所化(IMDL)がますます困難になっている。
IMDLでの以前の作業は、主に自然画像に焦点を当てていたが、AI生成の偽造に対する脆弱性が増大しているにもかかわらず、アニメドメインはまだ探索されていない。
手書きのアートワークや著作権侵害、不適切なコンテンツ修正といったAI生成イメージの誤表現は、アニメコミュニティや業界に深刻な脅威をもたらします。
このギャップに対処するため,アニメIMDLのための大規模なベンチマークであるAnimeDL-2Mを提案する。
実際の、部分的に操作された、完全なAI生成サンプルを含む200万枚以上の画像で構成されている。
実験により,既存の自然画像のIMDLデータセットに基づいてトレーニングされたモデルは,アニメ画像に適用した場合,貧弱なパフォーマンスを示し,アニメ画像と自然画像とのドメインギャップを明確にする。
アニメ領域におけるIMDLタスクをよりうまく処理するために,アニメ画像の視覚的特徴に合わせた新しいモデルであるAniXploreを提案する。
大規模な評価は、AniXploreが既存の方法よりも優れたパフォーマンスを達成していることを示している。
データセットとコードはhttps://flytweety.github.io/AnimeDL2M/で確認できる。
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - NOVA-3D: Non-overlapped Views for 3D Anime Character Reconstruction [14.509202872426942]
3D textbf Anime character Reconstruction (NOVA-3D) の非オーバーラップビュー
新しいフレームワークは、3D一貫性のある特徴を効果的に学習するためのビュー認識機能融合法を実装している。
実験では、特筆すべき細かな忠実さを持つアニメキャラクターの優れた再構成が示されている。
論文 参考訳(メタデータ) (2024-05-21T05:31:03Z) - APISR: Anime Production Inspired Real-World Anime Super-Resolution [15.501488335115269]
我々は,手描きフレームの繰り返し使用により,映像ネットワークやデータセットはアニメSRでは不要であると主張している。
代わりに,ビデオソースから最も圧縮され,最も情報に富んだフレームを選択することにより,アニメ画像収集パイプラインを提案する。
提案手法は,公開ベンチマークによる広範囲な実験により評価され,最先端のアニメデータセット学習手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-03T19:52:43Z) - AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error [15.46508882889489]
計算コストの低い高解像度画像を生成するための重要なイネーブルは、潜時拡散モデル(LDM)の開発である。
LDMは、高次元画像空間の代わりに、事前訓練されたオートエンコーダ(AE)の低次元潜時空間で復調処理を行う。
本稿では,画像と潜時空間間の画像変換に用いるAEという,LDMの固有成分を利用した新しい検出手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T14:36:49Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Scenimefy: Learning to Craft Anime Scene via Semi-Supervised
Image-to-Image Translation [75.91455714614966]
そこで我々は,新しい半教師付き画像-画像間翻訳フレームワークであるScenimefyを提案する。
提案手法は,構造に一貫性のある擬似ペアデータによる学習を導く。
スタイル化と細部を改善するために、パッチワイドのコントラストスタイルロスが導入されている。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - AnimeRun: 2D Animation Visual Correspondence from Open Source 3D Movies [98.65469430034246]
既存の2次元漫画のデータセットは、単純なフレーム構成と単調な動きに悩まされている。
我々は,オープンソースの3D映画を2Dスタイルのフルシーンに変換することによって,新しい2Dアニメーション視覚対応データセットAnimeRunを提案する。
分析の結果,提案したデータセットは画像合成において実際のアニメに似るだけでなく,既存のデータセットと比較してよりリッチで複雑な動きパターンを持つことがわかった。
論文 参考訳(メタデータ) (2022-11-10T17:26:21Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Enhancement of Anime Imaging Enlargement using Modified Super-Resolution
CNN [0.0]
本稿では,画像の特徴を抽出し,画像を拡大し,アニメ画像の品質を高めるために,畳み込みニューラルネットワークに基づくモデルを提案する。
実験の結果,既存の画像拡大法やSRCNN法と比較すると,画像サイズを大きくして画像品質を向上させることができた。
論文 参考訳(メタデータ) (2021-10-05T19:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。