論文の概要: STRIVE: Scene Text Replacement In Videos
- arxiv url: http://arxiv.org/abs/2109.02762v1
- Date: Mon, 6 Sep 2021 22:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:38:36.043537
- Title: STRIVE: Scene Text Replacement In Videos
- Title(参考訳): STRIVE:ビデオのシーンテキストのリプレース
- Authors: Vijay Kumar B G, Jeyasri Subramanian, Varnith Chordia, Eugene Bart,
Shaobo Fang, Kelly Guan and Raja Bala
- Abstract要約: 映像中のシーンテキストを深層移動と学習光度変換を用いて置き換えることを提案する。
合成および挑戦的な実ビデオの結果は、現実的なテキストトランスフェール、競争力のある量的および質的なパフォーマンス、代替品と比較して優れた推論速度を示している。
- 参考スコア(独自算出の注目度): 5.187595026303028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose replacing scene text in videos using deep style transfer and
learned photometric transformations.Building on recent progress on still image
text replacement,we present extensions that alter text while preserving the
appearance and motion characteristics of the original video.Compared to the
problem of still image text replacement,our method addresses additional
challenges introduced by video, namely effects induced by changing lighting,
motion blur, diverse variations in camera-object pose over time,and
preservation of temporal consistency. We parse the problem into three steps.
First, the text in all frames is normalized to a frontal pose using a
spatio-temporal trans-former network. Second, the text is replaced in a single
reference frame using a state-of-art still-image text replacement method.
Finally, the new text is transferred from the reference to remaining frames
using a novel learned image transformation network that captures lighting and
blur effects in a temporally consistent manner. Results on synthetic and
challenging real videos show realistic text trans-fer, competitive quantitative
and qualitative performance,and superior inference speed relative to
alternatives. We introduce new synthetic and real-world datasets with paired
text objects. To the best of our knowledge this is the first attempt at deep
video text replacement.
- Abstract(参考訳): We propose replacing scene text in videos using deep style transfer and learned photometric transformations.Building on recent progress on still image text replacement,we present extensions that alter text while preserving the appearance and motion characteristics of the original video.Compared to the problem of still image text replacement,our method addresses additional challenges introduced by video, namely effects induced by changing lighting, motion blur, diverse variations in camera-object pose over time,and preservation of temporal consistency.
私たちは問題を3つのステップに分ける。
まず、全フレームのテキストを時空間トランスフォーマネットワークを用いて前面ポーズに正規化する。
第2に、テキストは、最先端の静止画像テキスト置換法を用いて、単一の参照フレームに置き換えられる。
最後に、新しいテキストは、時間的に一貫した方法で光とぼかし効果をキャプチャする新しい学習画像変換ネットワークを用いて、残りのフレームへの参照から転送される。
合成および挑戦的な実ビデオの結果は、現実的なテキストトランスフェール、競争力のある量的および質的なパフォーマンス、代替品と比較して優れた推論速度を示している。
テキストオブジェクトをペア化した合成および実世界のデータセットを導入する。
私たちの知る限りでは、これはディープビデオテキスト置換の最初の試みです。
関連論文リスト
- Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - PSGText: Stroke-Guided Scene Text Editing with PSP Module [4.151658495779136]
Scene Text Editingは、画像中のテキストを、元のテキストの背景とスタイルを保存しながら、新しい所望のテキストで置き換えることを目的としている。
本稿では,テキスト画像間でテキストを転送する3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T09:15:26Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。