論文の概要: Character-Centric Understanding of Animated Movies
- arxiv url: http://arxiv.org/abs/2509.12204v1
- Date: Mon, 15 Sep 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.449106
- Title: Character-Centric Understanding of Animated Movies
- Title(参考訳): アニメーション映画のキャラクター中心理解
- Authors: Zhongrui Gui, Junyu Xie, Tengda Han, Weidi Xie, Andrew Zisserman,
- Abstract要約: 本稿では,自動的かつロバストなアニメーション文字認識を実現するための音声視覚パイプラインを提案する。
アニメーション映画のキャラクターは、その外観、動き、変形において極端な多様性を示す。
このパイプラインはアニメーション映画のキャラクター中心の理解を高める。
- 参考スコア(独自算出の注目度): 88.83104906869106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Animated movies are captivating for their unique character designs and imaginative storytelling, yet they pose significant challenges for existing recognition systems. Unlike the consistent visual patterns detected by conventional face recognition methods, animated characters exhibit extreme diversity in their appearance, motion, and deformation. In this work, we propose an audio-visual pipeline to enable automatic and robust animated character recognition, and thereby enhance character-centric understanding of animated movies. Central to our approach is the automatic construction of an audio-visual character bank from online sources. This bank contains both visual exemplars and voice (audio) samples for each character, enabling subsequent multi-modal character recognition despite long-tailed appearance distributions. Building on accurate character recognition, we explore two downstream applications: Audio Description (AD) generation for visually impaired audiences, and character-aware subtitling for the hearing impaired. To support research in this domain, we introduce CMD-AM, a new dataset of 75 animated movies with comprehensive annotations. Our character-centric pipeline demonstrates significant improvements in both accessibility and narrative comprehension for animated content over prior face-detection-based approaches. For the code and dataset, visit https://www.robots.ox.ac.uk/~vgg/research/animated_ad/.
- Abstract(参考訳): アニメ映画は独自のキャラクターデザインと想像力のあるストーリーテリングに魅了されているが、既存の認識システムには大きな課題がある。
従来の顔認識法で検出される一貫した視覚パターンとは異なり、アニメーションキャラクターはその外観、動き、変形において極端な多様性を示す。
本研究では,自動的かつロバストなアニメーション文字認識を実現するための音声視覚パイプラインを提案し,アニメーション映画の文字中心の理解を高める。
私たちのアプローチの中心は、オンラインソースからオーディオ視覚文字バンクを自動構築することです。
このバンクは、各文字に対する視覚的見本と音声(オーディオ)サンプルの両方を含んでおり、長い尾の外観分布にもかかわらず、後続のマルチモーダル文字認識を可能にする。
正確な文字認識に基づいて、視覚障害者のための音声記述(AD)生成と聴覚障害者のための文字認識サブタイリングの2つのダウンストリーム応用を探索する。
この領域の研究を支援するために,75本のアニメーション映画を包括的アノテーションでデータセット化したCMD-AMを紹介した。
文字中心のパイプラインは,従来の顔検出に基づくアプローチに比べて,アニメーションコンテンツに対するアクセシビリティと物語理解の両面で大きな改善を示す。
コードとデータセットについては、https://www.robots.ox.ac.uk/~vgg/research/animated_ad/を参照してください。
関連論文リスト
- FairyGen: Storied Cartoon Video from a Single Child-Drawn Character [15.701180508477679]
本研究では,一人の子どもの絵から物語駆動のマンガ映像を自動生成するFairyGenを提案する。
以前のストーリーテリング方法とは異なり、FairyGenはスタイル化された背景生成から文字モデリングを明示的に切り離している。
我々のシステムは、スタイリスティックに忠実で、物語的に構造化された自然運動のアニメーションを生成する。
論文 参考訳(メタデータ) (2025-06-26T13:58:16Z) - AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。
ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。
ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。
別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文 参考訳(メタデータ) (2025-06-03T17:55:18Z) - HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters [14.594698765723756]
HunyuanVideo-Avatarは動的、感情制御可能、マルチキャラクタ対話ビデオを同時に生成できるモデルである。
キャラクタイメージインジェクションモジュールは、従来の追加ベースのキャラクタコンディショニングスキームを置き換えるように設計されている。
AEM(Audio Emotion Module)を導入し、感情参照画像から感情手がかりを抽出し、ターゲット生成ビデオに転送する。
音声駆動型キャラクタを潜在レベルフェイスマスクで分離するために, 顔認識型オーディオアダプタ (FAA) を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:57:27Z) - MoCha: Towards Movie-Grade Talking Character Synthesis [62.007000023747445]
本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。
トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。
そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文 参考訳(メタデータ) (2025-03-30T04:22:09Z) - Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling [77.08568533331206]
文字画像アニメーションのための新しい多条件ガイドフレームワークを提案する。
我々は、モデルが暗黙的に疎結合する能力を高めるために、よく設計された入力モジュールをいくつか採用する。
本手法は,特に複雑な背景と複数の文字のシナリオにおいて,高品質なキャラクタアニメーションの生成に優れる。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Learning Audio-Driven Viseme Dynamics for 3D Face Animation [17.626644507523963]
入力音声からリアルな唇同期3Dアニメーションを生成できる,新しい音声駆動型顔アニメーション手法を提案する。
提案手法は,音声ビデオからビセメダイナミクスを学習し,アニメーターフレンドリーなビセメ曲線を生成し,多言語音声入力をサポートする。
論文 参考訳(メタデータ) (2023-01-15T09:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。