Fugu-MT 論文翻訳(概要): Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions

論文の概要: Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions

arxiv url: http://arxiv.org/abs/2403.07198v1
Date: Mon, 11 Mar 2024 22:46:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 23:21:15.072443
Title: Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions
Title（参考訳）: 動的人間行動のためのテキスト・ツー・Poseビデオ編集
Authors: Lan Wang, Vishnu Boddeti, and Sernam Lim
Abstract要約: ReimaginedActはビデオ理解、推論、編集モジュールを含む。提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
参考スコア（独自算出の注目度）: 49.14827857853878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a novel text-to-pose video editing method, ReimaginedAct. While existing video editing tasks are limited to changes in attributes, backgrounds, and styles, our method aims to predict open-ended human action changes in video. Moreover, our method can accept not only direct instructional text prompts but also `what if' questions to predict possible action changes. ReimaginedAct comprises video understanding, reasoning, and editing modules. First, an LLM is utilized initially to obtain a plausible answer for the instruction or question, which is then used for (1) prompting Grounded-SAM to produce bounding boxes of relevant individuals and (2) retrieving a set of pose videos that we have collected for editing human actions. The retrieved pose videos and the detected individuals are then utilized to alter the poses extracted from the original video. We also employ a timestep blending module to ensure the edited video retains its original content except where necessary modifications are needed. To facilitate research in text-to-pose video editing, we introduce a new evaluation dataset, WhatifVideo-1.0. This dataset includes videos of different scenarios spanning a range of difficulty levels, along with questions and text prompts. Experimental results demonstrate that existing video editing methods struggle with human action editing, while our approach can achieve effective action editing and even imaginary editing from counterfactual questions.
Abstract（参考訳）: 本稿では,新しいテキスト間ビデオ編集手法であるReimaginedActを紹介する。既存のビデオ編集タスクは属性,背景,スタイルの変化に限られているが,本手法は映像のオープンエンドな人間の行動変化を予測することを目的としている。さらに,本手法では,直接指示文のプロンプトだけでなく,行動変化を予測するための「もし」質問も受け付ける。 ReimaginedActはビデオ理解、推論、編集モジュールを含む。まず,まず LLM を用いて,(1)grounded-SAM に関連する個人の境界ボックスを作成させ,(2) 人間の行動の編集のために収集したポーズビデオの集合を検索する。検索されたポーズビデオと検出された個人を用いて、元のビデオから抽出されたポーズを変更する。また、必要な修正が必要な場合を除き、編集されたビデオが元のコンテンツを保持するようにするためのタイムステップブレンディングモジュールも使用しています。テキスト間ビデオ編集の研究を容易にするために,新しい評価データセットWhatifVideo-1.0を導入する。このデータセットには、さまざまな難易度にまたがるさまざまなシナリオのビデオと、質問やテキストプロンプトが含まれている。実験の結果,既存の映像編集手法は人間の行動編集に苦しむのに対し,本手法は効果的な行動編集や,虚偽の質問からの虚偽の編集さえも達成できることがわかった。

関連論文リスト

UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文参考訳（メタデータ） (2025-06-04T17:57:43Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes [29.80140472486948]
V$2$Editは、インストラクション誘導ビデオと3Dシーン編集のためのトレーニング不要のフレームワークである。複雑な編集タスクを単純なサブタスクに分解するプログレッシブ戦略を導入する。 V$2$Edit を "render-edit-reconstruct" プロセスで 3D シーン編集に拡張し,高品質な 3D 一貫性のある編集を可能にする。
論文参考訳（メタデータ） (2025-03-13T17:59:55Z)
Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。 IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文参考訳（メタデータ） (2025-01-08T07:52:12Z)
A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文参考訳（メタデータ） (2024-11-07T18:20:28Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。 VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文参考訳（メタデータ） (2024-05-22T17:46:08Z)
GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文参考訳（メタデータ） (2024-04-18T23:25:27Z)
Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion [19.969947635371]
Videoshopは、ローカライズされたセマンティック編集のためのトレーニング不要のビデオ編集アルゴリズムである。ユーザーはオブジェクトの追加や削除、セマンティックな変更、ストック写真をビデオに挿入したり、場所や外観を細かくコントロールできる。 Videoshopは、評価基準10を用いて、2つの編集ベンチマークで6つのベースラインに対して高い品質の編集を行う。
論文参考訳（メタデータ） (2024-03-21T17:59:03Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文参考訳（メタデータ） (2023-09-10T02:31:50Z)
The Anatomy of Video Editing: A Dataset and Benchmark Suite for AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文参考訳（メタデータ） (2022-07-20T10:53:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。