論文の概要: Sound Sparks Motion: Audio and Text Tuning for Video Editing
- arxiv url: http://arxiv.org/abs/2605.15307v1
- Date: Thu, 14 May 2026 18:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.054608
- Title: Sound Sparks Motion: Audio and Text Tuning for Video Editing
- Title(参考訳): Sound Sparks Motion:ビデオ編集のためのオーディオとテキストチューニング
- Authors: AmirHossein Naghi Razlighi, Aryan Mikaeili, Ali Mahdavi-Amiri, Daniel Cohen-Or, Yiorgos Chrysanthou,
- Abstract要約: 本研究では、オーディオ映像生成モデルにおけるモーション編集を可能にする、トレーニング不要のフレームワークであるSound Sparks Motionを紹介する。
Sound Sparks Motionはテスト時に内部のマルチモーダルコンディショニング信号を調整します。
この結果から,マルチモーダル・コンディショニング・チューニングをモーション対応ビデオ編集の有望な方向として強調した。
- 参考スコア(独自算出の注目度): 53.136757756110626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motion-centric video editing remains difficult for large generative video models, which often respond well to appearance changes but struggle to produce specific, localized actions or state transitions in an existing clip. We introduce Sound Sparks Motion, a training-free framework that enables motion editing in an audio-visual video generation model by tuning its internal multimodal conditioning signals at test time. Rather than modifying model weights, our method tunes only two lightweight variables: an audio latent derived from the source video and a residual perturbation in the text-conditioning. We find that this combination can encourage motion edits that the underlying model often struggles to realize under prompt-only control. Since there is no direct way to evaluate temporal alignment between text and motion, we guide the tuning process using a vision-language model that provides feedback indicating whether the intended motion appears in the generated video. This simple supervision yields an effective semantic objective for motion editing, while regularization and perceptual-temporal constraints help preserve content and visual quality. Beyond per-video tuning, we show that the learned latent controls are transferable across videos, suggesting that they capture reusable motion-edit directions rather than overfitting to a single example. Our results highlight multimodal conditioning tuning, particularly through the audio pathway, as a promising direction for motion-aware video editing, and suggest that test-time tuning can serve as a lightweight probing mechanism that helps reveal latent motion controls embedded in the model's multimodal conditioning. Code and data are available via our project page: https://amirhossein-razlighi.github.io/Sound_Sparks_Motion/
- Abstract(参考訳): モーション中心のビデオ編集は、外見の変化によく反応するが、既存のクリップで特定の局所的なアクションや状態遷移を生成するのに苦労する大規模な生成ビデオモデルにとって、依然として困難である。
本研究では,テスト時に内部マルチモーダルコンディショニング信号を調整することで,オーディオ映像生成モデルにおけるモーション編集を可能にする,トレーニング不要のフレームワークであるSound Sparks Motionを紹介する。
モデル重みを変更するのではなく、本手法は、音源映像から派生した音声潜在変数と、テキストコンディショニングにおける残摂動の2つの軽量変数をチューニングする。
この組み合わせは、プロンプトのみの制御下では、基礎となるモデルが実現に苦慮する動きの編集を促進することができる。
テキストと動きの時間的アライメントを評価する直接的な方法がないため、生成した動画に意図された動きが現れるかどうかを示すフィードバックを提供する視覚言語モデルを用いて、チューニングプロセスのガイドを行う。
この単純な監督は、動きの編集に効果的な意味的目的を与える一方、正規化と知覚的時間的制約は、内容と視覚的品質の保存に役立つ。
ビデオ単位のチューニング以外にも、学習した潜在制御がビデオ間で転送可能であることを示し、単一の例に過度に適合するのではなく、再利用可能なモーション編集方向をキャプチャできることを示唆している。
本研究では,特に音声経路を経由したマルチモーダル・コンディショニング・チューニングをモーション対応ビデオ編集の有望な方向として強調し,テストタイム・チューニングが,モデルのマルチモーダル・コンディショニングに埋め込まれた遅延動作制御を明らかにするための軽量なプロブリング機構として機能することを示唆した。
コードとデータはプロジェクトのページから入手できます。
関連論文リスト
- MotionV2V: Editing Motion in a Video [53.791975554391534]
入力から抽出したスパーストラジェクトリを編集し,映像の動きを変化させることを提案する。
入力と出力の軌跡のずれを「運動編集」と呼ぶ。
私たちのアプローチでは、任意のタイムスタンプから始まり、自然に伝播する編集が可能になります。
論文 参考訳(メタデータ) (2025-11-25T18:57:25Z) - Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising [23.044483059783143]
拡散に基づくビデオ生成はリアルなビデオを生成することができるが、既存の画像やテキストベースの条件付けでは正確なモーションコントロールが得られない。
我々は、モーションおよび外観制御ビデオ生成のためのトレーニング不要なプラグイン・アンド・プレイフレームワークであるTime-to-Move (TTM)を紹介した。
論文 参考訳(メタデータ) (2025-11-09T22:47:50Z) - AnimateAnything: Consistent and Controllable Animation for Video Generation [24.576022028967195]
本稿では,AnimateAnythingという統合制御可能なビデオ生成手法を提案する。
様々な条件にまたがる正確で一貫したビデオ操作を容易にする。
実験により,本手法は最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-16T16:36:49Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Audio2Gestures: Generating Diverse Gestures from Speech Audio with
Conditional Variational Autoencoders [29.658535633701035]
本稿では,一対多の音声-動画像マッピングを明示的にモデル化する条件付き変分オートエンコーダ(VAE)を提案する。
本手法は,最先端の手法よりも現実的で多様な動作を定量的に,質的に生成することを示す。
論文 参考訳(メタデータ) (2021-08-15T11:15:51Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。