論文の概要: Text-driven Video Prediction
- arxiv url: http://arxiv.org/abs/2210.02872v1
- Date: Thu, 6 Oct 2022 12:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:53:59.460147
- Title: Text-driven Video Prediction
- Title(参考訳): テキスト駆動ビデオ予測
- Authors: Xue Song, Jingjing Chen, Bin Zhu, Yu-Gang Jiang
- Abstract要約: テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
- 参考スコア(独自算出の注目度): 83.04845684117835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video generation models usually convert signals indicating appearance
and motion received from inputs (e.g., image, text) or latent spaces (e.g.,
noise vectors) into consecutive frames, fulfilling a stochastic generation
process for the uncertainty introduced by latent code sampling. However, this
generation pattern lacks deterministic constraints for both appearance and
motion, leading to uncontrollable and undesirable outcomes. To this end, we
propose a new task called Text-driven Video Prediction (TVP). Taking the first
frame and text caption as inputs, this task aims to synthesize the following
frames. Specifically, appearance and motion components are provided by the
image and caption separately. The key to addressing the TVP task depends on
fully exploring the underlying motion information in text descriptions, thus
facilitating plausible video generation. In fact, this task is intrinsically a
cause-and-effect problem, as the text content directly influences the motion
changes of frames. To investigate the capability of text in causal inference
for progressive motion information, our TVP framework contains a Text Inference
Module (TIM), producing step-wise embeddings to regulate motion inference for
subsequent frames. In particular, a refinement mechanism incorporating global
motion semantics guarantees coherent generation. Extensive experiments are
conducted on Something-Something V2 and Single Moving MNIST datasets.
Experimental results demonstrate that our model achieves better results over
other baselines, verifying the effectiveness of the proposed framework.
- Abstract(参考訳): 現在のビデオ生成モデルは、通常、入力(画像、テキストなど)や潜在空間(ノイズベクトルなど)から受信した外観や動きを示す信号を連続したフレームに変換し、潜在コードサンプリングによってもたらされる不確実性に対する確率的生成プロセスを実現する。
しかし、この生成パターンは外観と動きの両方に決定論的制約がなく、制御不能で望ましくない結果をもたらす。
そこで本研究では,テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
具体的には、画像とキャプションとで外観と動き成分を別々に設ける。
TVP タスクに対処する鍵は、テキスト記述における基盤となる動作情報を完全に探索することに依存している。
実際、このタスクは本質的に原因と効果の問題であり、テキストの内容はフレームの動きの変化に直接影響する。
プログレッシブモーション情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を備えており、ステップワイドな埋め込みを生成し、その後のフレームに対する動き推論を制御する。
特に、グローバルモーションセマンティクスを組み込んだ改良機構により、コヒーレント生成が保証される。
大規模な実験は、Something V2とSinglemoving MNISTデータセットで行われている。
実験の結果,本モデルは他のベースラインよりも優れた結果が得られ,提案フレームワークの有効性が検証された。
関連論文リスト
- Transformer with Controlled Attention for Synchronous Motion Captioning [0.0]
本稿では,人間の動作シーケンスに同期した言語記述を生成することを目的とした,同期動作キャプションという課題に対処する。
本手法では,トランスフォーマーの自己および横断的な分布を制御する機構を導入し,解釈可能性と時刻整合テキスト生成を実現する。
我々は、KIT-MLとHumanML3Dという2つのベンチマークデータセットの評価を通じて、我々のアプローチの優れた性能を実証する。
論文 参考訳(メタデータ) (2024-09-13T20:30:29Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。