論文の概要: HyperCUT: Video Sequence from a Single Blurry Image using Unsupervised
Ordering
- arxiv url: http://arxiv.org/abs/2304.01686v1
- Date: Tue, 4 Apr 2023 10:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:17:50.893124
- Title: HyperCUT: Video Sequence from a Single Blurry Image using Unsupervised
Ordering
- Title(参考訳): HyperCUT: 教師なし順序付けによる単一ブルーリ画像からの映像シーケンス
- Authors: Bang-Dang Pham, Phong Tran, Anh Tran, Cuong Pham, Rang Nguyen, Minh
Hoai
- Abstract要約: 画像と映像のデブロアリングのためのトレーニングモデルの課題を考察する。
映像間モデルのトレーニングを邪魔する重要な問題は、フレーム順序のあいまいさである。
本稿では,高品質な画像と映像のデブロアリングモデルのトレーニングを可能にする,効果的なセルフ教師付き注文方式を提案する。
- 参考スコア(独自算出の注目度): 20.627780144126252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the challenging task of training models for image-to-video
deblurring, which aims to recover a sequence of sharp images corresponding to a
given blurry image input. A critical issue disturbing the training of an
image-to-video model is the ambiguity of the frame ordering since both the
forward and backward sequences are plausible solutions. This paper proposes an
effective self-supervised ordering scheme that allows training high-quality
image-to-video deblurring models. Unlike previous methods that rely on
order-invariant losses, we assign an explicit order for each video sequence,
thus avoiding the order-ambiguity issue. Specifically, we map each video
sequence to a vector in a latent high-dimensional space so that there exists a
hyperplane such that for every video sequence, the vectors extracted from it
and its reversed sequence are on different sides of the hyperplane. The side of
the vectors will be used to define the order of the corresponding sequence.
Last but not least, we propose a real-image dataset for the image-to-video
deblurring problem that covers a variety of popular domains, including face,
hand, and street. Extensive experimental results confirm the effectiveness of
our method. Code and data are available at
https://github.com/VinAIResearch/HyperCUT.git
- Abstract(参考訳): 本研究では,画像入力に対応するシャープな画像列を復元することを目的とした,映像から映像へのデブラリングのためのモデル学習の課題について検討する。
画像から映像へのモデルのトレーニングを妨害する重要な問題は、前後の両方のシーケンスが妥当な解であるため、フレーム順序の曖昧さである。
本稿では,高品質な画像と映像のデブロアリングモデルのトレーニングを可能にする,効果的なセルフ教師付き注文方式を提案する。
順序不変損失に依存する従来の方法とは異なり、各ビデオシーケンスに対して明示的な順序を割り当て、順序曖昧性の問題を回避する。
具体的には、各映像列を潜伏高次元空間内のベクトルに写像し、各映像列に対してそのベクトルとその逆列が超平面の異なる側面にあるような超平面が存在するようにする。
ベクトルの側面は対応する列の順序を定義するのに使用される。
最後に、顔、手、通りなど、さまざまな人気領域をカバーする画像とビデオの劣化問題に対するリアルタイムデータセットを提案する。
広範な実験結果から本手法の有効性を確認した。
コードとデータはhttps://github.com/vinairesearch/hypercut.gitで入手できる。
関連論文リスト
- Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。
$mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。
ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-31T09:36:58Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Lester: rotoscope animation through video object segmentation and
tracking [0.0]
レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
論文 参考訳(メタデータ) (2024-02-15T11:15:54Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - Learning Knowledge-Rich Sequential Model for Planar Homography
Estimation in Aerial Video [12.853493070295457]
我々は,ビデオフレームのシーケンスを処理し,その一対の平面ホモグラフ変換をバッチで推定する逐次推定器を開発した。
また、このようなシーケンス・ツー・シーケンスモデルの学習を規則化するために、空間的時間的知識のセットも組み込んだ。
実験的な研究により、我々の逐次モデルが代替画像ベース法よりも大幅に改善されることが示唆された。
論文 参考訳(メタデータ) (2023-04-05T19:28:58Z) - Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration [85.3323211054274]
ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。
本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。
S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-20T14:14:48Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - Deep Visual Reasoning: Learning to Predict Action Sequences for Task and
Motion Planning from an Initial Scene Image [43.05971157389743]
本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。
重要な側面として、我々の手法は、一度に2つのオブジェクトでしか訓練されないにもかかわらず、多数の異なるオブジェクトを持つシーンに一般化する。
論文 参考訳(メタデータ) (2020-06-09T16:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。