論文の概要: Generating Fit Check Videos with a Handheld Camera
- arxiv url: http://arxiv.org/abs/2505.23886v1
- Date: Thu, 29 May 2025 17:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.604525
- Title: Generating Fit Check Videos with a Handheld Camera
- Title(参考訳): ハンドヘルドカメラによるフィットチェックビデオの生成
- Authors: Bowei Chen, Brian Curless, Ira Kemelmacher-Shlizerman, Steven M. Seitz,
- Abstract要約: 携帯端末を用いたフルボディビデオキャプチャを実現するための,より便利なソリューションを提案する。
われわれのアプローチは、鏡に映った2枚の静止画(前後)を入力し、携帯電話を持っていながら演奏するIMUモーションレファレンスとして捉えている。
私たちは一貫した照明と影で新しいシーンへのレンダリングを可能にします。
- 参考スコア(独自算出の注目度): 21.020454186769655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-captured full-body videos are popular, but most deployments require mounted cameras, carefully-framed shots, and repeated practice. We propose a more convenient solution that enables full-body video capture using handheld mobile devices. Our approach takes as input two static photos (front and back) of you in a mirror, along with an IMU motion reference that you perform while holding your mobile phone, and synthesizes a realistic video of you performing a similar target motion. We enable rendering into a new scene, with consistent illumination and shadows. We propose a novel video diffusion-based model to achieve this. Specifically, we propose a parameter-free frame generation strategy, as well as a multi-reference attention mechanism, that effectively integrate appearance information from both the front and back selfies into the video diffusion model. Additionally, we introduce an image-based fine-tuning strategy to enhance frame sharpness and improve the generation of shadows and reflections, achieving a more realistic human-scene composition.
- Abstract(参考訳): 自撮りフルボディビデオは人気があるが、ほとんどの配備にはマウントカメラ、慎重にフレーム化されたショット、反復練習が必要である。
携帯端末を用いたフルボディビデオキャプチャを実現するための,より便利なソリューションを提案する。
われわれのアプローチでは、鏡に映った2枚の静止画(前後)と、携帯電話を握りながら演奏するIMUモーションレファレンスを入力し、同じターゲットの動きを行う現実的なビデオを合成する。
私たちは一貫した照明と影で新しいシーンへのレンダリングを可能にします。
そこで我々は,これを実現するための新しいビデオ拡散モデルを提案する。
具体的には,前後両方の自撮り画像の出現情報をビデオ拡散モデルに効果的に統合する,パラメータフリーフレーム生成戦略とマルチ参照アテンション機構を提案する。
さらに,フレームのシャープさを向上し,影や反射の発生を改善するために,画像に基づく微調整戦略を導入し,よりリアルな人間のシーン構成を実現する。
関連論文リスト
- CamMimic: Zero-Shot Image To Camera Motion Personalized Video Generation Using Diffusion Models [47.65379612084075]
CamMimicは、所定のリファレンスビデオで観察されたカメラモーションを、ユーザの選択したシーンにシームレスに転送するように設計されている。
非関連シーン間のカメラの動き伝達を評価するための確立された指標が存在しないため,CameraScoreを提案する。
論文 参考訳(メタデータ) (2025-04-13T08:04:11Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [43.14498014617223]
マルチカメラビデオ生成のための事前訓練されたテキスト・ツー・ビデオモデルを強化するプラグイン・アンド・プレイ・モジュールを提案する。
異なる視点における外観と幾何の整合性を維持するために,マルチビュー同期モジュールを導入する。
提案手法は,新しい視点からビデオを再レンダリングするなど,興味をそそる拡張を可能にする。
論文 参考訳(メタデータ) (2024-12-10T18:55:17Z) - ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning [32.08206580711449]
本稿では,新規なカメラトラジェクトリを用いた新しいビデオ生成手法であるReCaptureについて述べる。
提案手法により,既存のシーンの動きを全く異なる角度から,撮影カメラの動きで再現することができる。
論文 参考訳(メタデータ) (2024-11-07T18:59:45Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation [64.77240137998862]
MicroCinemaは高品質でコヒーレントなテキスト・ビデオ生成のためのフレームワークである。
本稿では,テキスト・ツー・ビデオ生成と画像・テキスト・ツー・ビデオ生成という2段階のプロセスに分割するDivide-and-Conquer戦略を提案する。
MSR-VTTではUCF-101では342.86、MSR-VTTでは377.40のSOTAゼロショットFVDを達成した。
論文 参考訳(メタデータ) (2023-11-30T18:59:30Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。