Fugu-MT 論文翻訳(概要): Uni-Animator: Towards Unified Visual Colorization

論文の概要: Uni-Animator: Towards Unified Visual Colorization

arxiv url: http://arxiv.org/abs/2602.23191v1
Date: Thu, 26 Feb 2026 16:44:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.784216
Title: Uni-Animator: Towards Unified Visual Colorization
Title（参考訳）: Uni-Animator:Unified Visual Colorizationを目指して
Authors: Xinyuan Chen, Yao Xu, Shaowen Wang, Pengjie Song, Bowen Deng,
Abstract要約: 画像と映像のカラー化のための新しいフレームワークUni-Animatorを提案する。既存のスケッチのカラー化手法は、画像とビデオのタスクを統合するのに苦労する。本稿では、インスタンスパッチの埋め込みによる視覚的参照強化について紹介する。高周波テクスチャを効果的に捕捉・保持する物理特徴を用いた物理ディテール強化を設計する。
参考スコア（独自算出の注目度）: 23.467435361820392
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Uni-Animator, a novel Diffusion Transformer (DiT)-based framework for unified image and video sketch colorization. Existing sketch colorization methods struggle to unify image and video tasks, suffering from imprecise color transfer with single or multiple references, inadequate preservation of high-frequency physical details, and compromised temporal coherence with motion artifacts in large-motion scenes. To tackle imprecise color transfer, we introduce visual reference enhancement via instance patch embedding, enabling precise alignment and fusion of reference color information. To resolve insufficient physical detail preservation, we design physical detail reinforcement using physical features that effectively capture and retain high-frequency textures. To mitigate motion-induced temporal inconsistency, we propose sketch-based dynamic RoPE encoding that adaptively models motion-aware spatial-temporal dependencies. Extensive experimental results demonstrate that Uni-Animator achieves competitive performance on both image and video sketch colorization, matching that of task-specific methods while unlocking unified cross-domain capabilities with high detail fidelity and robust temporal consistency.
Abstract（参考訳）: 画像と映像のカラー化のための新しい拡散変換器(DiT)ベースのフレームワークであるUni-Animatorを提案する。既存のスケッチのカラー化手法は、画像とビデオのタスクを統一するのに苦労し、単一または複数の参照による不正確な色移動、高周波の物理的詳細の保存の不十分さ、大動きシーンにおける動きのアーティファクトとの時間的コヒーレンスを損なう。不正確な色伝達に対処するために、インスタンスパッチ埋め込みによる視覚基準強調を導入し、参照色情報の正確なアライメントと融合を可能にする。物理ディテール保存の不十分さを解決するため,高頻度テクスチャを効果的に捕捉・保持する物理特徴を用いた物理ディテール強化を設計する。動きによる時間的不整合を緩和するために,動きを考慮した時間的依存関係を適応的にモデル化するスケッチベースの動的RoPE符号化を提案する。広汎な実験結果から,Uni-Animatorは画像と映像のスケッチのカラー化において,タスク固有の手法と一致し,高精細な忠実度と堅牢な時間的整合性を持ったクロスドメイン機能を実現する。

関連論文リスト

IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文参考訳（メタデータ） (2026-02-07T11:17:20Z)
Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文参考訳（メタデータ） (2025-12-03T15:51:11Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。軽量のスパース制御エンコーダのみを使用して編集信号を注入する。従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文参考訳（メタデータ） (2025-01-14T16:09:16Z)
DreamColour: Controllable Video Colour Editing without Training [80.90808879991182]
直感的なインタフェースにより、正確な映像色編集を可能にする訓練不要のフレームワークを提案する。色編集の空間的側面と時間的側面を分離することにより、ユーザの自然なワークフローをより良く整合させることができる。当社のアプローチは、トレーニングや特別なハードウェアの必要性を排除しつつ、最先端の手法に適合または超越しています。
論文参考訳（メタデータ） (2024-12-06T16:57:54Z)
LatentColorization: Latent Diffusion-Based Speaker Video Colorization [1.2641141743223379]
ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
論文参考訳（メタデータ） (2024-05-09T12:06:06Z)
Histogram-guided Video Colorization Structure with Spatial-Temporal Connection [10.059070138875038]
空間時間接続構造を用いたヒストグラム誘導映像色化(ST-HVC) 色覚と運動情報を十分に活用するために、関節血流とヒストグラムモジュールを調整し、ヒストグラムとフローの特徴を統合する。提案手法は,2つのビデオデータセットにおいて,定量的かつ質的に優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-08-09T11:59:18Z)
Temporally Consistent Video Colorization with Deep Feature Propagation and Self-regularization Learning [90.38674162878496]
時間的に一貫した新しいビデオカラー化フレームワーク(TCVC)を提案する。 TCVCは、フレームレベルの深い特徴を双方向的に効果的に伝播し、色付けの時間的一貫性を高める。実験により,本手法は視覚的に満足な色付きビデオを得るだけでなく,最先端の手法よりも時間的整合性が得られることが示された。
論文参考訳（メタデータ） (2021-10-09T13:00:14Z)
Line Art Correlation Matching Feature Transfer Network for Automatic Animation Colorization [0.0]
色付き参照特徴を学習可能な方法で整列させるための相関マッチング特徴伝達モデル(CMFT)を提案する。これにより、ジェネレータはディープセマンティックコードから徐々にコンテンツにレイヤーワイドの同期機能を転送できる。
論文参考訳（メタデータ） (2020-04-14T06:50:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。