論文の概要: Lester: rotoscope animation through video object segmentation and
tracking
- arxiv url: http://arxiv.org/abs/2402.09883v1
- Date: Thu, 15 Feb 2024 11:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:48:58.555129
- Title: Lester: rotoscope animation through video object segmentation and
tracking
- Title(参考訳): Lester: ビデオオブジェクトのセグメンテーションとトラッキングによるロトスコープアニメーション
- Authors: Ruben Tous
- Abstract要約: レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article introduces Lester, a novel method to automatically synthetise
retro-style 2D animations from videos. The method approaches the challenge
mainly as an object segmentation and tracking problem. Video frames are
processed with the Segment Anything Model (SAM) and the resulting masks are
tracked through subsequent frames with DeAOT, a method of hierarchical
propagation for semi-supervised video object segmentation. The geometry of the
masks' contours is simplified with the Douglas-Peucker algorithm. Finally,
facial traits, pixelation and a basic shadow effect can be optionally added.
The results show that the method exhibits an excellent temporal consistency and
can correctly process videos with different poses and appearances, dynamic
shots, partial shots and diverse backgrounds. The proposed method provides a
more simple and deterministic approach than diffusion models based
video-to-video translation pipelines, which suffer from temporal consistency
problems and do not cope well with pixelated and schematic outputs. The method
is also much most practical than techniques based on 3D human pose estimation,
which require custom handcrafted 3D models and are very limited with respect to
the type of scenes they can process.
- Abstract(参考訳): 本稿ではレトロな2Dアニメーションをビデオから自動合成する新しい手法であるレスターを紹介する。
本手法は,主に対象セグメンテーションと追跡問題として課題にアプローチする。
ビデオフレームはSegment Anything Model (SAM) で処理され、結果として得られたマスクは、半教師付きビデオオブジェクトセグメンテーションの階層的伝播方法であるDeAOTによって後続のフレームを通して追跡される。
マスクの輪郭の形状はダグラス・ポーカーアルゴリズムによって単純化される。
最後に、顔の特徴、画素化、基本的な影効果を任意に追加することができる。
その結果,この手法は時間的一貫性に優れており,異なるポーズや外観,ダイナミックショット,部分ショット,背景の異なる映像を正しく処理できることがわかった。
提案手法は,時間的整合性に悩まされ,画素出力やスキーマ出力にうまく対応しない拡散モデルに基づくビデオ間翻訳パイプラインよりも,より単純かつ決定論的手法を提供する。
この手法は、手作りの3Dモデルを必要とする3Dのポーズ推定技術よりも実用的であり、処理可能なシーンの種類に関して非常に限定されている。
関連論文リスト
- Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos [47.97168047776216]
そこで,本研究では,生の未表示オンラインビデオから3次元動物運動の合成モデルを学習するための新しい手法を提案する。
我々のモデルは、自己教師付き画像の特徴から抽出した意味的対応を利用して、ラベルなしのウェブビデオクリップの集合から純粋に学習する。
論文 参考訳(メタデータ) (2023-12-21T06:44:18Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。