論文の概要: Instructional Video Generation
- arxiv url: http://arxiv.org/abs/2412.04189v3
- Date: Wed, 11 Dec 2024 21:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:10.732303
- Title: Instructional Video Generation
- Title(参考訳): インストラクショナルビデオ生成
- Authors: Yayuan Li, Zhi Cao, Jason J. Corso,
- Abstract要約: 最先端の手法は、教示ビデオにおける視覚的ディテールの要素といまだに苦労している。
視覚的コンテキストとアクションテキストでガイドされた指導ビデオ生成のための新しい手法を提案する。
EpicKitchens と Ego4D をベースとした拡張指導データセットの評価を行った。
- 参考スコア(独自算出の注目度): 19.26289173517333
- License:
- Abstract: Despite the recent strides in video generation, state-of-the-art methods still struggle with elements of visual detail. One particularly challenging case is the class of egocentric instructional videos in which the intricate motion of the hand coupled with a mostly stable and non-distracting environment is necessary to convey the appropriate visual action instruction. To address these challenges, we introduce a new method for instructional video generation. Our diffusion-based method incorporates two distinct innovations. First, we propose an automatic method to generate the expected region of motion, guided by both the visual context and the action text. Second, we introduce a critical hand structure loss to guide the diffusion model to focus on smooth and consistent hand poses. We evaluate our method on augmented instructional datasets based on EpicKitchens and Ego4D, demonstrating significant improvements over state-of-the-art methods in terms of instructional clarity, especially of the hand motion in the target region, across diverse environments and actions. Video results can be found in https://excitedbutter.github.io/Instructional-Video-Generation/
- Abstract(参考訳): ビデオ生成の最近の進歩にもかかわらず、最先端の手法はまだ視覚的詳細要素に苦戦している。
特に難しい例は、手の動きをほぼ安定的で非破壊的な環境と結びつけて、適切な視覚行動指示を伝達する、自我中心型指導ビデオのクラスである。
これらの課題に対処するために,命令型ビデオ生成の新しい手法を提案する。
我々の拡散法は2つの異なる革新を取り入れている。
まず,視覚的コンテキストとアクションテキストの両方でガイドされる動き領域の自動生成手法を提案する。
第二に、拡散モデルがスムーズで一貫したポーズに焦点を合わせるために、臨界手構造損失を導入する。
EpicKitchens と Ego4D をベースとした拡張型指導データセットの評価を行い、様々な環境や行動において、特に対象領域における手の動きの明瞭さの観点から、最先端の手法に対する顕著な改善が示された。
ビデオの結果はhttps://excitedbutter.github.io/ Instructional-Video-Generation/にある。
関連論文リスト
- Towards Long Video Understanding via Fine-detailed Video Story Generation [58.31050916006673]
長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。
既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。
長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文 参考訳(メタデータ) (2024-12-09T03:41:28Z) - Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。
具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。
形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
ビデオのスキル評価の現在の方法は、スコアのみを提供し、デモを比較することである。
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Understanding Action Sequences based on Video Captioning for
Learning-from-Observation [14.467714234267307]
本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。
分割は、人間の日常行動と対象中心の顔接触遷移を一致させる手速の局所的最小点に基づいて行われる。
人間の意図を正しく理解し,動画内の意図しない動作を無視するために,動作記述と言語指示を一致させる。
論文 参考訳(メタデータ) (2020-12-09T05:22:01Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。