論文の概要: Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions
- arxiv url: http://arxiv.org/abs/2403.07198v1
- Date: Mon, 11 Mar 2024 22:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:21:15.072443
- Title: Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions
- Title(参考訳): 動的人間行動のためのテキスト・ツー・Poseビデオ編集
- Authors: Lan Wang, Vishnu Boddeti, and Sernam Lim
- Abstract要約: ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
- 参考スコア(独自算出の注目度): 49.14827857853878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel text-to-pose video editing method, ReimaginedAct. While
existing video editing tasks are limited to changes in attributes, backgrounds,
and styles, our method aims to predict open-ended human action changes in
video. Moreover, our method can accept not only direct instructional text
prompts but also `what if' questions to predict possible action changes.
ReimaginedAct comprises video understanding, reasoning, and editing modules.
First, an LLM is utilized initially to obtain a plausible answer for the
instruction or question, which is then used for (1) prompting Grounded-SAM to
produce bounding boxes of relevant individuals and (2) retrieving a set of pose
videos that we have collected for editing human actions. The retrieved pose
videos and the detected individuals are then utilized to alter the poses
extracted from the original video. We also employ a timestep blending module to
ensure the edited video retains its original content except where necessary
modifications are needed. To facilitate research in text-to-pose video editing,
we introduce a new evaluation dataset, WhatifVideo-1.0. This dataset includes
videos of different scenarios spanning a range of difficulty levels, along with
questions and text prompts. Experimental results demonstrate that existing
video editing methods struggle with human action editing, while our approach
can achieve effective action editing and even imaginary editing from
counterfactual questions.
- Abstract(参考訳): 本稿では,新しいテキスト間ビデオ編集手法であるReimaginedActを紹介する。
既存のビデオ編集タスクは属性,背景,スタイルの変化に限られているが,本手法は映像のオープンエンドな人間の行動変化を予測することを目的としている。
さらに,本手法では,直接指示文のプロンプトだけでなく,行動変化を予測するための「もし」質問も受け付ける。
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
まず,まず LLM を用いて,(1)grounded-SAM に関連する個人の境界ボックスを作成させ,(2) 人間の行動の編集のために収集したポーズビデオの集合を検索する。
検索されたポーズビデオと検出された個人を用いて、元のビデオから抽出されたポーズを変更する。
また、必要な修正が必要な場合を除き、編集されたビデオが元のコンテンツを保持するようにするためのタイムステップブレンディングモジュールも使用しています。
テキスト間ビデオ編集の研究を容易にするために,新しい評価データセットWhatifVideo-1.0を導入する。
このデータセットには、さまざまな難易度にまたがるさまざまなシナリオのビデオと、質問やテキストプロンプトが含まれている。
実験の結果,既存の映像編集手法は人間の行動編集に苦しむのに対し,本手法は効果的な行動編集や,虚偽の質問からの虚偽の編集さえも達成できることがわかった。
関連論文リスト
- UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance
Editing [29.552092989541006]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - SAVE: Protagonist Diversification with Structure Agnostic Video Editing [29.693364686494274]
従来の作品は通常、自明で一貫した形状でうまく機能し、元のものと大きく異なる体形を持つ難しいターゲットで容易に崩壊する。
動きのパーソナライズを単一音源映像から分離し,それに応じて動きの調整を行う。
我々はまた、新しい擬似光学フローを導入することにより、動き語を適切な動き関連領域に適応するように調整する。
論文 参考訳(メタデータ) (2023-12-05T05:13:20Z) - Motion-Conditioned Image Animation for Video Editing [65.90398261600964]
MoCAは動画編集のためのモーションコンディション・イメージ・アニメーション・アプローチである。
提案するベンチマークでは,MoCAとともに最新の映像編集手法の総合的評価を行う。
MoCAは新たな最先端技術を確立し、人間の嗜好の勝利率を高め、最近の顕著なアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-11-30T18:59:06Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z) - Automatic Non-Linear Video Editing Transfer [7.659780589300858]
本稿では,ソースビデオ中の編集スタイルを抽出し,一致した映像に編集を適用する自動手法を提案する。
コンピュータビジョンに基づく手法では,各入力映像セグメントのフレーミング,コンテンツタイプ,再生速度,照明について検討する。
論文 参考訳(メタデータ) (2021-05-14T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。