論文の概要: Disentangling Content and Motion for Text-Based Neural Video
Manipulation
- arxiv url: http://arxiv.org/abs/2211.02980v1
- Date: Sat, 5 Nov 2022 21:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:22:14.134184
- Title: Disentangling Content and Motion for Text-Based Neural Video
Manipulation
- Title(参考訳): テキストベースニューラルビデオマニピュレーションにおけるディエンタングリングの内容と動き
- Authors: Levent Karacan, Tolga Kerimo\u{g}lu, \.Ismail \.Inan, Tolga Birdal,
Erkut Erdem, Aykut Erdem
- Abstract要約: 自然言語で動画を操作するためのDiCoMoGANという新しい手法を提案する。
評価の結果,DiCoMoGANは既存のフレームベース手法よりも優れていた。
- 参考スコア(独自算出の注目度): 28.922000242744435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Giving machines the ability to imagine possible new objects or scenes from
linguistic descriptions and produce their realistic renderings is arguably one
of the most challenging problems in computer vision. Recent advances in deep
generative models have led to new approaches that give promising results
towards this goal. In this paper, we introduce a new method called DiCoMoGAN
for manipulating videos with natural language, aiming to perform local and
semantic edits on a video clip to alter the appearances of an object of
interest. Our GAN architecture allows for better utilization of multiple
observations by disentangling content and motion to enable controllable
semantic edits. To this end, we introduce two tightly coupled networks: (i) a
representation network for constructing a concise understanding of motion
dynamics and temporally invariant content, and (ii) a translation network that
exploits the extracted latent content representation to actuate the
manipulation according to the target description. Our qualitative and
quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms
existing frame-based methods, producing temporally coherent and semantically
more meaningful results.
- Abstract(参考訳): 機械に言語記述から可能な新しいオブジェクトやシーンを想像させ、そのリアルなレンダリングを生み出す能力を与えることは、おそらくコンピュータビジョンにおける最も困難な問題の1つだ。
深層生成モデルの最近の進歩は、この目標に有望な結果を与える新しいアプローチにつながった。
本稿では,映像を自然言語で操作し,映像の局所的・意味的な編集を行い,興味のある対象の外観を変えることを目的とした新しい手法であるdicomoganを提案する。
我々のGANアーキテクチャは、コンテンツと動きを切り離すことで、複数の観察をよりよく活用し、制御可能なセマンティック編集を可能にする。
この目的のために,2つの密結合ネットワークを導入する。
(i)運動力学と時間不変量の簡潔な理解を構築するための表現ネットワーク、
二 抽出した潜在コンテンツ表現を利用して、対象記述に従って操作を動作させる翻訳ネットワーク。
定性的および定量的評価により、DiCoMoGANは既存のフレームベース手法を著しく上回り、時間的コヒーレントかつ意味論的により有意義な結果をもたらすことが示された。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。
提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文 参考訳(メタデータ) (2024-07-08T14:44:18Z) - Generated Contents Enrichment [11.196681396888536]
我々は、GCE(Generated Contents Enrichment)と呼ばれる新しい人工知能タスクを提案する。
提案したGCEは、視覚領域とテキスト領域の両方において、コンテンツ豊か化を明示的に行おうとしている。
GCEに対処するために,意味論と意味間関係を明確に探求するディープエンド・ツー・エンドの敵対手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:09Z) - Semantics-aware Motion Retargeting with Vision-Language Models [19.53696208117539]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
我々は3次元動作のレンダリングに微分可能モジュールを使用し、視覚言語モデルに入力し、抽出したセマンティック埋め込みを整合させることにより、高レベルなモーションセマンティクスを動作プロセスに組み込む。
微粒な動きの詳細と高レベルのセマンティクスの保存を確保するため、スケルトンを意識した事前学習とセマンティクスと幾何制約による微調整からなる2段階パイプラインを採用する。
論文 参考訳(メタデータ) (2023-12-04T15:23:49Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。