論文の概要: Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions
- arxiv url: http://arxiv.org/abs/2403.07198v1
- Date: Mon, 11 Mar 2024 22:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:21:15.072443
- Title: Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions
- Title(参考訳): 動的人間行動のためのテキスト・ツー・Poseビデオ編集
- Authors: Lan Wang, Vishnu Boddeti, and Sernam Lim
- Abstract要約: ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
- 参考スコア(独自算出の注目度): 49.14827857853878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel text-to-pose video editing method, ReimaginedAct. While
existing video editing tasks are limited to changes in attributes, backgrounds,
and styles, our method aims to predict open-ended human action changes in
video. Moreover, our method can accept not only direct instructional text
prompts but also `what if' questions to predict possible action changes.
ReimaginedAct comprises video understanding, reasoning, and editing modules.
First, an LLM is utilized initially to obtain a plausible answer for the
instruction or question, which is then used for (1) prompting Grounded-SAM to
produce bounding boxes of relevant individuals and (2) retrieving a set of pose
videos that we have collected for editing human actions. The retrieved pose
videos and the detected individuals are then utilized to alter the poses
extracted from the original video. We also employ a timestep blending module to
ensure the edited video retains its original content except where necessary
modifications are needed. To facilitate research in text-to-pose video editing,
we introduce a new evaluation dataset, WhatifVideo-1.0. This dataset includes
videos of different scenarios spanning a range of difficulty levels, along with
questions and text prompts. Experimental results demonstrate that existing
video editing methods struggle with human action editing, while our approach
can achieve effective action editing and even imaginary editing from
counterfactual questions.
- Abstract(参考訳): 本稿では,新しいテキスト間ビデオ編集手法であるReimaginedActを紹介する。
既存のビデオ編集タスクは属性,背景,スタイルの変化に限られているが,本手法は映像のオープンエンドな人間の行動変化を予測することを目的としている。
さらに,本手法では,直接指示文のプロンプトだけでなく,行動変化を予測するための「もし」質問も受け付ける。
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
まず,まず LLM を用いて,(1)grounded-SAM に関連する個人の境界ボックスを作成させ,(2) 人間の行動の編集のために収集したポーズビデオの集合を検索する。
検索されたポーズビデオと検出された個人を用いて、元のビデオから抽出されたポーズを変更する。
また、必要な修正が必要な場合を除き、編集されたビデオが元のコンテンツを保持するようにするためのタイムステップブレンディングモジュールも使用しています。
テキスト間ビデオ編集の研究を容易にするために,新しい評価データセットWhatifVideo-1.0を導入する。
このデータセットには、さまざまな難易度にまたがるさまざまなシナリオのビデオと、質問やテキストプロンプトが含まれている。
実験の結果,既存の映像編集手法は人間の行動編集に苦しむのに対し,本手法は効果的な行動編集や,虚偽の質問からの虚偽の編集さえも達成できることがわかった。
関連論文リスト
- A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion [19.969947635371]
Videoshopは、ローカライズされたセマンティック編集のためのトレーニング不要のビデオ編集アルゴリズムである。
ユーザーはオブジェクトの追加や削除、セマンティックな変更、ストック写真をビデオに挿入したり、場所や外観を細かくコントロールできる。
Videoshopは、評価基準10を用いて、2つの編集ベンチマークで6つのベースラインに対して高い品質の編集を行う。
論文 参考訳(メタデータ) (2024-03-21T17:59:03Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。