Fugu-MT 論文翻訳(概要): Disentangling Content and Motion for Text-Based Neural Video Manipulation

論文の概要: Disentangling Content and Motion for Text-Based Neural Video Manipulation

arxiv url: http://arxiv.org/abs/2211.02980v1
Date: Sat, 5 Nov 2022 21:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 17:22:14.134184
Title: Disentangling Content and Motion for Text-Based Neural Video Manipulation
Title（参考訳）: テキストベースニューラルビデオマニピュレーションにおけるディエンタングリングの内容と動き
Authors: Levent Karacan, Tolga Kerimo\u{g}lu, \.Ismail \.Inan, Tolga Birdal, Erkut Erdem, Aykut Erdem
Abstract要約: 自然言語で動画を操作するためのDiCoMoGANという新しい手法を提案する。評価の結果,DiCoMoGANは既存のフレームベース手法よりも優れていた。
参考スコア（独自算出の注目度）: 28.922000242744435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Giving machines the ability to imagine possible new objects or scenes from linguistic descriptions and produce their realistic renderings is arguably one of the most challenging problems in computer vision. Recent advances in deep generative models have led to new approaches that give promising results towards this goal. In this paper, we introduce a new method called DiCoMoGAN for manipulating videos with natural language, aiming to perform local and semantic edits on a video clip to alter the appearances of an object of interest. Our GAN architecture allows for better utilization of multiple observations by disentangling content and motion to enable controllable semantic edits. To this end, we introduce two tightly coupled networks: (i) a representation network for constructing a concise understanding of motion dynamics and temporally invariant content, and (ii) a translation network that exploits the extracted latent content representation to actuate the manipulation according to the target description. Our qualitative and quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms existing frame-based methods, producing temporally coherent and semantically more meaningful results.
Abstract（参考訳）: 機械に言語記述から可能な新しいオブジェクトやシーンを想像させ、そのリアルなレンダリングを生み出す能力を与えることは、おそらくコンピュータビジョンにおける最も困難な問題の1つだ。深層生成モデルの最近の進歩は、この目標に有望な結果を与える新しいアプローチにつながった。本稿では,映像を自然言語で操作し,映像の局所的・意味的な編集を行い,興味のある対象の外観を変えることを目的とした新しい手法であるdicomoganを提案する。我々のGANアーキテクチャは、コンテンツと動きを切り離すことで、複数の観察をよりよく活用し、制御可能なセマンティック編集を可能にする。この目的のために,2つの密結合ネットワークを導入する。 (i)運動力学と時間不変量の簡潔な理解を構築するための表現ネットワーク、二抽出した潜在コンテンツ表現を利用して、対象記述に従って操作を動作させる翻訳ネットワーク。定性的および定量的評価により、DiCoMoGANは既存のフレームベース手法を著しく上回り、時間的コヒーレントかつ意味論的により有意義な結果をもたらすことが示された。

関連論文リスト

Compositional Video Synthesis by Temporal Object-Centric Learning [3.2228025627337864]
本稿では、時間的に一貫したオブジェクト中心表現を利用する合成ビデオ合成のための新しいフレームワークを提案する。提案手法は, 物体中心スロットの変動を学習し, 事前学習した拡散モデルに条件付けすることによって, 時間的ダイナミクスを明示的に捉える。この設計により、時間コヒーレンスに優れた高品質の画素レベルのビデオ合成が可能となる。
論文参考訳（メタデータ） (2025-07-28T14:11:04Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文参考訳（メタデータ） (2025-02-17T10:46:47Z)
DynVFX: Augmenting Real Videos with Dynamic Content [19.393567535259518]
本稿では,動的コンテンツを新たに生成した実世界の映像を拡大する手法を提案する。入力ビデオと、所望の内容を記述した簡単なテキスト命令が与えられた場合、本手法は動的オブジェクトや複雑なシーン効果を合成する。新しいコンテンツの位置、外観、動きは、元の映像にシームレスに統合される。
論文参考訳（メタデータ） (2025-02-05T21:14:55Z)
Dynamic Scene Understanding from Vision-Language Representations [11.833972582610027]
本稿では,現代の凍結した視覚言語表現からの知識を活用することにより,動的シーン理解タスクのためのフレームワークを提案する。既存のアプローチと比較して、最小限のトレーニング可能なパラメータを使用しながら、最先端の結果を得る。
論文参考訳（メタデータ） (2025-01-20T18:33:46Z)
Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文参考訳（メタデータ） (2024-12-03T17:44:23Z)
Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文参考訳（メタデータ） (2024-10-06T15:03:22Z)
Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文参考訳（メタデータ） (2024-07-08T14:44:18Z)
Generated Contents Enrichment [11.196681396888536]
我々は、GCE(Generated Contents Enrichment)と呼ばれる新しい人工知能タスクを提案する。提案したGCEは、視覚領域とテキスト領域の両方において、コンテンツ豊か化を明示的に行おうとしている。 GCEに対処するために,意味論と意味間関係を明確に探求するディープエンド・ツー・エンドの敵対手法を提案する。
論文参考訳（メタデータ） (2024-05-06T17:14:09Z)
Semantics-aware Motion Retargeting with Vision-Language Models [19.53696208117539]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。我々は3次元動作のレンダリングに微分可能モジュールを使用し、視覚言語モデルに入力し、抽出したセマンティック埋め込みを整合させることにより、高レベルなモーションセマンティクスを動作プロセスに組み込む。微粒な動きの詳細と高レベルのセマンティクスの保存を確保するため、スケルトンを意識した事前学習とセマンティクスと幾何制約による微調整からなる2段階パイプラインを採用する。
論文参考訳（メタデータ） (2023-12-04T15:23:49Z)
SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。 CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-10-31T09:58:11Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文参考訳（メタデータ） (2022-04-06T02:42:33Z)
Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文参考訳（メタデータ） (2021-10-22T04:35:58Z)
Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文参考訳（メタデータ） (2021-01-16T23:44:09Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)
OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文参考訳（メタデータ） (2020-03-08T04:34:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。