論文の概要: Text-Driven Stylization of Video Objects
- arxiv url: http://arxiv.org/abs/2206.12396v1
- Date: Fri, 24 Jun 2022 17:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 14:18:28.573968
- Title: Text-Driven Stylization of Video Objects
- Title(参考訳): ビデオオブジェクトのテキスト駆動スタイライゼーション
- Authors: Sebastian Loeschcke, Serge Belongie and Sagie Benaim
- Abstract要約: ユーザが指定したテキストプロンプトに従って,映像オブジェクトを直感的・意味的にスタイリングする作業に取り組む。
本手法は,グローバルなセマンティクスを記述したグローバルなターゲットテキストプロンプトに基づいて,ビデオ内のオブジェクトをスタイリングする。
我々は事前訓練されたアトラス分解ネットワークを用いて、編集を時間的に一貫した方法で伝達する。
- 参考スコア(独自算出の注目度): 22.82818481936432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the task of stylizing video objects in an intuitive and semantic
manner following a user-specified text prompt. This is a challenging task as
the resulting video must satisfy multiple properties: (1) it has to be
temporally consistent and avoid jittering or similar artifacts, (2) the
resulting stylization must preserve both the global semantics of the object and
its fine-grained details, and (3) it must adhere to the user-specified text
prompt. To this end, our method stylizes an object in a video according to a
global target text prompt that describes the global semantics and a local
target text prompt that describes the local semantics. To modify the style of
an object, we harness the representational power of CLIP to get a similarity
score between (1) the local target text and a set of local stylized views, and
(2) a global target text and a set of stylized global views. We use a
pretrained atlas decomposition network to propagate the edits in a temporally
consistent manner. We demonstrate that our method can generate consistent style
changes in time for a variety of objects and videos, that adhere to the
specification of the target texts. We also show how varying the specificity of
the target texts, and augmenting the texts with a set of prefixes results in
stylizations with different levels of detail. Full results are given on our
project webpage:
https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/
- Abstract(参考訳): ユーザが指定したテキストプロンプトに従ってビデオオブジェクトを直感的かつ意味的にスタイライゼーションするタスクに取り組む。
1) 時間的に一貫性があり、ジッタリングや類似したアーティファクトを避ける必要があり、(2) 結果のスタイリングは、オブジェクトのグローバルなセマンティクスとその微細な詳細の両方を保持し、(3) ユーザが指定したテキストプロンプトに従わなければならない。
そこで本手法では,グローバルなセマンティクスを記述したグローバルなターゲットテキストプロンプトと,ローカルなセマンティクスを記述したローカルなターゲットテキストプロンプトに基づいて,ビデオ内のオブジェクトをスタイリングする。
オブジェクトのスタイルを変更するために、クリップの表現力を利用して(1)局所的な対象テキストと局所的なスタイル化されたビューのセットと(2)グローバルなターゲットテキストとスタイル化されたグローバルビューのセットとの類似度スコアを得る。
我々は,事前訓練されたatlas分解ネットワークを用いて,編集を時間的に一貫した方法で伝達する。
本手法は,対象テキストの仕様に準拠した様々なオブジェクトやビデオに対して,一貫したスタイル変化を時間内に生成できることを実証する。
また,対象テキストの特異性を変化させる方法を示し,プレフィックスのセットでテキストを補足することにより,細部レベルの異なるスタイライゼーションを実現する。
完全な結果はプロジェクトのWebページにある。 https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/
関連論文リスト
- RealCustom: Narrowing Real Text Word for Real-Time Open-Domain
Text-to-Image Customization [57.86083349873154]
テキスト・ツー・イメージのカスタマイズは、与えられた被験者に対してテキスト駆動の画像を合成することを目的としている。
既存の作品は擬似語パラダイム、すなわち、与えられた主題を擬似語として表現し、与えられたテキストで合成する。
我々は、RealCustomを初めて、被写体の影響を関連部分のみに正確に制限することで、制御性から類似性を解き放つことを提示する。
論文 参考訳(メタデータ) (2024-03-01T12:12:09Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style
Adapter [74.68550659331405]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - Soulstyler: Using Large Language Model to Guide Image Style Transfer for
Target Object [9.759321877363258]
Soulstylerを使えば、ユーザーは簡単なテキスト記述を通じて画像中の特定のオブジェクトのスタイル化をガイドできる。
テキストを解析し、スタイル化の目標と特定のスタイルを特定するために、大きな言語モデルを導入する。
また,特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する,新たなローカライズされたテキストイメージブロックマッチング損失を導入する。
論文 参考訳(メタデータ) (2023-11-22T18:15:43Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文 参考訳(メタデータ) (2021-08-05T04:17:20Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。