論文の概要: Disentangling Content and Motion for Text-Based Neural Video
Manipulation
- arxiv url: http://arxiv.org/abs/2211.02980v1
- Date: Sat, 5 Nov 2022 21:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:22:14.134184
- Title: Disentangling Content and Motion for Text-Based Neural Video
Manipulation
- Title(参考訳): テキストベースニューラルビデオマニピュレーションにおけるディエンタングリングの内容と動き
- Authors: Levent Karacan, Tolga Kerimo\u{g}lu, \.Ismail \.Inan, Tolga Birdal,
Erkut Erdem, Aykut Erdem
- Abstract要約: 自然言語で動画を操作するためのDiCoMoGANという新しい手法を提案する。
評価の結果,DiCoMoGANは既存のフレームベース手法よりも優れていた。
- 参考スコア(独自算出の注目度): 28.922000242744435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Giving machines the ability to imagine possible new objects or scenes from
linguistic descriptions and produce their realistic renderings is arguably one
of the most challenging problems in computer vision. Recent advances in deep
generative models have led to new approaches that give promising results
towards this goal. In this paper, we introduce a new method called DiCoMoGAN
for manipulating videos with natural language, aiming to perform local and
semantic edits on a video clip to alter the appearances of an object of
interest. Our GAN architecture allows for better utilization of multiple
observations by disentangling content and motion to enable controllable
semantic edits. To this end, we introduce two tightly coupled networks: (i) a
representation network for constructing a concise understanding of motion
dynamics and temporally invariant content, and (ii) a translation network that
exploits the extracted latent content representation to actuate the
manipulation according to the target description. Our qualitative and
quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms
existing frame-based methods, producing temporally coherent and semantically
more meaningful results.
- Abstract(参考訳): 機械に言語記述から可能な新しいオブジェクトやシーンを想像させ、そのリアルなレンダリングを生み出す能力を与えることは、おそらくコンピュータビジョンにおける最も困難な問題の1つだ。
深層生成モデルの最近の進歩は、この目標に有望な結果を与える新しいアプローチにつながった。
本稿では,映像を自然言語で操作し,映像の局所的・意味的な編集を行い,興味のある対象の外観を変えることを目的とした新しい手法であるdicomoganを提案する。
我々のGANアーキテクチャは、コンテンツと動きを切り離すことで、複数の観察をよりよく活用し、制御可能なセマンティック編集を可能にする。
この目的のために,2つの密結合ネットワークを導入する。
(i)運動力学と時間不変量の簡潔な理解を構築するための表現ネットワーク、
二 抽出した潜在コンテンツ表現を利用して、対象記述に従って操作を動作させる翻訳ネットワーク。
定性的および定量的評価により、DiCoMoGANは既存のフレームベース手法を著しく上回り、時間的コヒーレントかつ意味論的により有意義な結果をもたらすことが示された。
関連論文リスト
- Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。
提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - DynVFX: Augmenting Real Videos with Dynamic Content [19.393567535259518]
本稿では,動的コンテンツを新たに生成した実世界の映像を拡大する手法を提案する。
入力ビデオと、所望の内容を記述した簡単なテキスト命令が与えられた場合、本手法は動的オブジェクトや複雑なシーン効果を合成する。
新しいコンテンツの位置、外観、動きは、元の映像にシームレスに統合される。
論文 参考訳(メタデータ) (2025-02-05T21:14:55Z) - Dynamic Scene Understanding from Vision-Language Representations [11.833972582610027]
本稿では,現代の凍結した視覚言語表現からの知識を活用することにより,動的シーン理解タスクのためのフレームワークを提案する。
既存のアプローチと比較して、最小限のトレーニング可能なパラメータを使用しながら、最先端の結果を得る。
論文 参考訳(メタデータ) (2025-01-20T18:33:46Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。
提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文 参考訳(メタデータ) (2024-07-08T14:44:18Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。