論文の概要: Text-Driven Stylization of Video Objects
- arxiv url: http://arxiv.org/abs/2206.12396v2
- Date: Mon, 27 Jun 2022 06:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 10:50:08.508447
- Title: Text-Driven Stylization of Video Objects
- Title(参考訳): ビデオオブジェクトのテキスト駆動スタイライゼーション
- Authors: Sebastian Loeschcke, Serge Belongie and Sagie Benaim
- Abstract要約: ユーザが指定したテキストプロンプトに従って,映像オブジェクトを直感的・意味的にスタイリングする作業に取り組む。
本手法は2つのターゲットテキストに基づいてビデオ中のオブジェクトをスタイリングする。
提案手法は,様々なオブジェクトやビデオに対して,時間とともに一貫したスタイル変化を生成できることを実証する。
- 参考スコア(独自算出の注目度): 22.82818481936432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the task of stylizing video objects in an intuitive and semantic
manner following a user-specified text prompt. This is a challenging task as
the resulting video must satisfy multiple properties: (1) it has to be
temporally consistent and avoid jittering or similar artifacts, (2) the
resulting stylization must preserve both the global semantics of the object and
its fine-grained details, and (3) it must adhere to the user-specified text
prompt. To this end, our method stylizes an object in a video according to two
target texts. The first target text prompt describes the global semantics and
the second target text prompt describes the local semantics. To modify the
style of an object, we harness the representational power of CLIP to get a
similarity score between (1) the local target text and a set of local stylized
views, and (2) a global target text and a set of stylized global views. We use
a pretrained atlas decomposition network to propagate the edits in a temporally
consistent manner. We demonstrate that our method can generate consistent style
changes over time for a variety of objects and videos, that adhere to the
specification of the target texts. We also show how varying the specificity of
the target texts and augmenting the texts with a set of prefixes results in
stylizations with different levels of detail. Full results are given on our
project webpage:
https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/
- Abstract(参考訳): ユーザが指定したテキストプロンプトに従ってビデオオブジェクトを直感的かつ意味的にスタイライゼーションするタスクに取り組む。
1) 時間的に一貫性があり、ジッタリングや類似したアーティファクトを避ける必要があり、(2) 結果のスタイリングは、オブジェクトのグローバルなセマンティクスとその微細な詳細の両方を保持し、(3) ユーザが指定したテキストプロンプトに従わなければならない。
この目的のために,本手法は2つのターゲットテキストに基づいて映像中のオブジェクトをスタイリングする。
第1のターゲットテキストプロンプトはグローバルセマンティクスを、第2のターゲットテキストプロンプトはローカルセマンティクスを記述します。
オブジェクトのスタイルを変更するために、クリップの表現力を利用して(1)局所的な対象テキストと局所的なスタイル化されたビューのセットと(2)グローバルなターゲットテキストとスタイル化されたグローバルビューのセットとの類似度スコアを得る。
我々は,事前訓練されたatlas分解ネットワークを用いて,編集を時間的に一貫した方法で伝達する。
本手法は,対象テキストの仕様に準拠したさまざまなオブジェクトやビデオに対して,時間とともに一貫したスタイル変化を生成できることを実証する。
また, 対象テキストの特異性の変化と, プレフィックスの集合によるテキストの増大が, 詳細度合いの異なるスタイル化をもたらすことを示す。
完全な結果はプロジェクトのWebページにある。 https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/
関連論文リスト
- RealCustom++: Representing Images as Real-Word for Real-Time Customization [80.04828124070418]
テキスト・ツー・イメージのカスタマイズは、テキストのセマンティクスと主題の外観の両方に合わせた新しいイメージを合成することを目的としている。
既存の作品は擬単語のパラダイムに従っており、特定の主題を擬単語として表現する。
そこで我々はRealCustom++と呼ばれる新しいリアルワードパラダイムを提案し,その代わりに課題を非コンフリクトなリアルワードとして表現する。
論文 参考訳(メタデータ) (2024-08-19T07:15:44Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - RealCustom: Narrowing Real Text Word for Real-Time Open-Domain
Text-to-Image Customization [57.86083349873154]
テキスト・ツー・イメージのカスタマイズは、与えられた被験者に対してテキスト駆動の画像を合成することを目的としている。
既存の作品は擬似語パラダイム、すなわち、与えられた主題を擬似語として表現し、与えられたテキストで合成する。
我々は、RealCustomを初めて、被写体の影響を関連部分のみに正確に制限することで、制御性から類似性を解き放つことを提示する。
論文 参考訳(メタデータ) (2024-03-01T12:12:09Z) - Soulstyler: Using Large Language Model to Guide Image Style Transfer for
Target Object [9.759321877363258]
Soulstylerを使えば、ユーザーは簡単なテキスト記述を通じて画像中の特定のオブジェクトのスタイル化をガイドできる。
テキストを解析し、スタイル化の目標と特定のスタイルを特定するために、大きな言語モデルを導入する。
また,特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する,新たなローカライズされたテキストイメージブロックマッチング損失を導入する。
論文 参考訳(メタデータ) (2023-11-22T18:15:43Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文 参考訳(メタデータ) (2021-08-05T04:17:20Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。