論文の概要: Instructional Video Generation
- arxiv url: http://arxiv.org/abs/2412.04189v1
- Date: Thu, 05 Dec 2024 14:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 20:43:02.089419
- Title: Instructional Video Generation
- Title(参考訳): インストラクショナルビデオ生成
- Authors: Yayuan Li, Zhi Cao, Jason J. Corso,
- Abstract要約: 本稿では,命令型ビデオ生成のための新しい手法を提案する。
まず,視覚的コンテキストとアクションテキストの両方でガイドされる動き領域の自動生成手法を提案する。
第二に、拡散モデルがスムーズで一貫したポーズに焦点を合わせるために、臨界手構造損失を導入する。
- 参考スコア(独自算出の注目度): 19.26289173517333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent strides in video generation, state-of-the-art methods still struggle with elements of visual detail. One particularly challenging case is the class of egocentric instructional videos in which the intricate motion of the hand coupled with a mostly stable and non-distracting environment is necessary to convey the appropriate visual action instruction. To address these challenges, we introduce a new method for instructional video generation. Our diffusion-based method incorporates two distinct innovations. First, we propose an automatic method to generate the expected region of motion, guided by both the visual context and the action text. Second, we introduce a critical hand structure loss to guide the diffusion model to focus on smooth and consistent hand poses. We evaluate our method on augmented instructional datasets based on EpicKitchens and Ego4D, demonstrating significant improvements over state-of-the-art methods in terms of instructional clarity, especially of the hand motion in the target region, across diverse environments and actions.Video results can be found on the project webpage: https://excitedbutter.github.io/Instructional-Video-Generation/
- Abstract(参考訳): ビデオ生成の最近の進歩にもかかわらず、最先端の手法はまだ視覚的詳細要素に苦戦している。
特に難しい例は、手の動きをほぼ安定的で非破壊的な環境と結びつけて、適切な視覚行動指示を伝達する、自我中心型指導ビデオのクラスである。
これらの課題に対処するために,命令型ビデオ生成の新しい手法を提案する。
我々の拡散法は2つの異なる革新を取り入れている。
まず,視覚的コンテキストとアクションテキストの両方でガイドされる動き領域の自動生成手法を提案する。
第二に、拡散モデルがスムーズで一貫したポーズに焦点を合わせるために、臨界手構造損失を導入する。
EpicKitchens と Ego4D をベースとした拡張型指導データセットの評価を行い,特に対象領域における手の動きを対象領域の多様な環境や行動で明らかにした。
関連論文リスト
- Audio-driven Gesture Generation via Deviation Feature in the Latent Space [2.8952735126314733]
本稿では,音声合成に適した遅延表現偏差を学習する弱教師付きフレームワークを提案する。
提案手法では,より正確かつニュアンスなジェスチャー表現を実現するために,遅延動作特徴を統合する拡散モデルを用いている。
実験により,本手法は映像の画質を大幅に向上させ,最先端技術を上回った。
論文 参考訳(メタデータ) (2025-03-27T15:37:16Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。
具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。
形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
ビデオのスキル評価の現在の方法は、スコアのみを提供し、デモを比較することである。
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Understanding Action Sequences based on Video Captioning for
Learning-from-Observation [14.467714234267307]
本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。
分割は、人間の日常行動と対象中心の顔接触遷移を一致させる手速の局所的最小点に基づいて行われる。
人間の意図を正しく理解し,動画内の意図しない動作を無視するために,動作記述と言語指示を一致させる。
論文 参考訳(メタデータ) (2020-12-09T05:22:01Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。