Fugu-MT 論文翻訳(概要): CAST: Character labeling in Animation using Self-supervision by Tracking

論文の概要: CAST: Character labeling in Animation using Self-supervision by Tracking

arxiv url: http://arxiv.org/abs/2201.07619v1
Date: Wed, 19 Jan 2022 14:21:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-20 17:51:30.634375
Title: CAST: Character labeling in Animation using Self-supervision by Tracking
Title（参考訳）: CAST: トラッキングによる自己監督によるアニメーションの文字ラベリング
Authors: Oron Nir, Gal Rapoport, Ariel Shamir
Abstract要約: カートゥーンやアニメーションのドメインビデオは、実写の画像やビデオとは大きく異なる特徴を持っている。現在のコンピュータビジョンとディープラーニングソリューションは、自然画像で訓練されたため、アニメーションコンテンツでは失敗することが多い。本稿では,特定のアニメーションコンテンツに適した意味表現を洗練させる手法を提案する。
参考スコア（独自算出の注目度）: 6.57697269659615
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Cartoons and animation domain videos have very different characteristics compared to real-life images and videos. In addition, this domain carries a large variability in styles. Current computer vision and deep-learning solutions often fail on animated content because they were trained on natural images. In this paper we present a method to refine a semantic representation suitable for specific animated content. We first train a neural network on a large-scale set of animation videos and use the mapping to deep features as an embedding space. Next, we use self-supervision to refine the representation for any specific animation style by gathering many examples of animated characters in this style, using a multi-object tracking. These examples are used to define triplets for contrastive loss training. The refined semantic space allows better clustering of animated characters even when they have diverse manifestations. Using this space we can build dictionaries of characters in an animation videos, and define specialized classifiers for specific stylistic content (e.g., characters in a specific animation series) with very little user effort. These classifiers are the basis for automatically labeling characters in animation videos. We present results on a collection of characters in a variety of animation styles.
Abstract（参考訳）: 漫画やアニメーションのドメインビデオは、実際の画像やビデオとは全く異なる特徴を持っている。さらに、このドメインはスタイルに大きな可変性を持っている。現在のコンピュータビジョンとディープラーニングソリューションは、自然画像で訓練されたため、アニメーションコンテンツでは失敗することが多い。本稿では,特定のアニメーションコンテンツに適した意味表現を洗練する手法を提案する。まず、大規模なアニメーションビデオセットでニューラルネットワークをトレーニングし、深層機能へのマッピングを埋め込み空間として使用します。次に、マルチオブジェクトトラッキングを用いて、このスタイルでアニメーションキャラクターの多くの例を収集することにより、特定のアニメーションスタイルの表現を洗練するために自己スーパービジョンを使用する。これらの例は、コントラスト損失トレーニングのための三重項を定義するために使われる。洗練された意味空間は、多様な表現を持つ場合でも、アニメーションキャラクタのクラスタリングを改善する。この空間を使用することで、アニメーションビデオに文字の辞書を作成し、特定のスタイル的コンテンツ(例えば、特定のアニメーションシリーズの文字)の特殊分類器を定義することができる。これらの分類器はアニメーションビデオ中の文字を自動的にラベリングする基礎である。本稿では,様々なアニメーションスタイルのキャラクターの集合について報告する。

関連論文リスト

MagicAnime: A Hierarchically Annotated, Multimodal and Multitasking Dataset with Benchmarks for Cartoon Animation Generation [2.700983545680755]
マルチモーダルコントロールは、非人間的なキャラクターの複雑さ、スタイリスティックに多様な動き、きめ細かい感情のために困難である。複数のビデオ生成タスクをサポートするために設計された大規模で階層的な注釈付きマルチモーダルデータセットであるMagicAnimeデータセットを提案する。上記のタスクにおける様々なメソッドの比較をサポートするために,MagicAnime-Benchと呼ばれるマルチモーダルアニメーションのアニメーションベンチマークを構築した。
論文参考訳（メタデータ） (2025-07-27T17:53:00Z)
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character [15.701180508477679]
本研究では,一人の子どもの絵から物語駆動のマンガ映像を自動生成するFairyGenを提案する。以前のストーリーテリング方法とは異なり、FairyGenはスタイル化された背景生成から文字モデリングを明示的に切り離している。我々のシステムは、スタイリスティックに忠実で、物語的に構造化された自然運動のアニメーションを生成する。
論文参考訳（メタデータ） (2025-06-26T13:58:16Z)
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文参考訳（メタデータ） (2025-06-03T17:55:18Z)
AniDoc: Animation Creation Made Easier [54.97341104616779]
我々の研究は、ますます強力なAIの可能性を生かして、2Dアニメーションを制作する際のコスト削減に重点を置いている。 AniDocはビデオラインアートのカラー化ツールとして登場し、自動的にスケッチシーケンスをカラーアニメーションに変換する。本モデルでは,一致マッチングを明示的なガイダンスとして活用し,基準文字と各ラインアートフレームの変動に強いロバスト性を与える。
論文参考訳（メタデータ） (2024-12-18T18:59:59Z)
Animate-X: Universal Character Image Animation with Enhanced Motion Representation [42.73097432203482]
Animate-X は LDM をベースとした汎用アニメーションフレームワークであり、人為的文字を含む様々な文字タイプに対応している。我々は、暗黙的かつ明示的な方法で、運転映像から包括的な動きパターンをキャプチャするPose Indicatorを紹介した。また,アニメーション画像におけるAnimate-Xの性能を評価するために,新しいアニメーション擬人化ベンチマークを導入する。
論文参考訳（メタデータ） (2024-10-14T09:06:55Z)
Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control [77.08568533331206]
Follow-Your-Pose v2は、インターネットで簡単に利用できるノイズの多いオープンソースビデオでトレーニングすることができる。われわれの手法は、2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。
論文参考訳（メタデータ） (2024-06-05T08:03:18Z)
AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-04-18T17:24:28Z)
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文参考訳（メタデータ） (2024-04-17T17:59:55Z)
AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。 AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文参考訳（メタデータ） (2024-04-07T12:57:41Z)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-11-28T12:27:15Z)
AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-21T03:47:54Z)
Deep Animation Video Interpolation in the Wild [115.24454577119432]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。特にAnimeInterpは、野生のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文参考訳（メタデータ） (2021-04-06T13:26:49Z)
Unpaired Motion Style Transfer from Video to Animation [74.15550388701833]
1つのアニメーションクリップからもう1つのアニメーションクリップへモーションスタイルを転送する一方で、後者のモーションコンテンツを保存することは、キャラクターアニメーションにおいて長年の課題であった。本稿では,スタイルラベル付き動きの集合から学習する動きスタイル伝達のための新しいデータ駆動フレームワークを提案する。本フレームワークでは,映像から直接動作スタイルを抽出し,3次元再構成をバイパスし,これらを3次元入力動作に適用することができる。
論文参考訳（メタデータ） (2020-05-12T13:21:27Z)
First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文参考訳（メタデータ） (2020-02-29T07:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。