Fugu-MT 論文翻訳(概要): The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion

論文の概要: The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion

arxiv url: http://arxiv.org/abs/2309.04509v1
Date: Fri, 8 Sep 2023 12:21:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 17:57:14.605799
Title: The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion
Title（参考訳）: 音のパワー(TPoS):安定拡散による音声反応性ビデオ生成
Authors: Yujin Jeong, Wonjeong Ryoo, Seunghyun Lee, Dabin Seo, Wonmin Byeon, Sangpil Kim and Jinkyu Kim
Abstract要約: 本稿では,音のパワー・オブ・サウンドモデルを提案する。ビデオフレームを生成するために、TPoSはセマンティック情報を持つ潜在安定拡散モデルを使用し、シーケンシャルオーディオ埋め込みによってガイドされる。様々なタスクにおけるTPoSの有効性を実証し、その結果をオーディオ・ビデオ生成分野における最先端技術と比較する。
参考スコア（独自算出の注目度）: 23.398304611826642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, video generation has become a prominent generative tool and has drawn significant attention. However, there is little consideration in audio-to-video generation, though audio contains unique qualities like temporal semantics and magnitude. Hence, we propose The Power of Sound (TPoS) model to incorporate audio input that includes both changeable temporal semantics and magnitude. To generate video frames, TPoS utilizes a latent stable diffusion model with textual semantic information, which is then guided by the sequential audio embedding from our pretrained Audio Encoder. As a result, this method produces audio reactive video contents. We demonstrate the effectiveness of TPoS across various tasks and compare its results with current state-of-the-art techniques in the field of audio-to-video generation. More examples are available at https://ku-vai.github.io/TPoS/
Abstract（参考訳）: 近年、ビデオ生成は顕著な生成ツールとなり、注目されている。しかし、音声からビデオへの生成には、時間的意味論や大きさといった独特の特徴があるにもかかわらず、ほとんど考慮されていない。そこで本研究では,時間的意味と大きさの両方を含む音声入力を組み込むための音響パワー(tpos)モデルを提案する。ビデオフレームを生成するために、tposはテキスト意味情報を持つ潜在安定拡散モデルを使用し、事前学習したオーディオエンコーダから逐次音声埋め込みによって導かれる。結果として、この方法は、オーディオ反応性ビデオコンテンツを生成する。様々なタスクにおけるTPoSの有効性を実証し、その結果をオーディオ・ビデオ生成分野における最先端技術と比較する。その他の例はhttps://ku-vai.github.io/TPoS/で公開されている。

関連論文リスト

ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。 ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文参考訳（メタデータ） (2026-02-09T14:06:03Z)
Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation [5.304004483404346]
Oviは、2つのモードを単一の生成プロセスとしてモデル化するオーディオビデオ生成の統一パラダイムである。何十万時間もの生のオーディオをゼロから学習し、現実的な音響効果を生み出すことを学ぶ。本モデルでは,自然音声による映像ストーリーテリングと,映像レベルの映像クリップを制作し,コンテキストマッチングの精度の高い音響効果を実現する。
論文参考訳（メタデータ） (2025-09-30T21:03:50Z)
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文参考訳（メタデータ） (2025-08-11T17:58:24Z)
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Seeing Voices: Generating A-Roll Video from Audio with Mirage [12.16029287095035]
ビデオ生成への現在のアプローチは、音声を無視して汎用的だがサイレントな画像シーケンス生成に焦点を当てている。音声入力が与えられたスクラッチからリアルで表現力のある出力画像を生成するのに優れるオーディオ・ビデオ基盤モデルであるMirageを紹介する。
論文参考訳（メタデータ） (2025-06-09T22:56:02Z)
Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。 MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文参考訳（メタデータ） (2025-06-09T17:59:42Z)
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文参考訳（メタデータ） (2024-08-21T18:06:15Z)
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos [3.6078215038168473]
EgoSonicsは,サイレントなエゴセントリックなビデオに条件付けされた意味論的に意味があり,同期された音声トラックを生成する手法である。サイレントなエゴセントリックなビデオのためのオーディオを生成することは、仮想現実、補助技術、または既存のデータセットを拡大するための新しいアプリケーションを開く可能性がある。
論文参考訳（メタデータ） (2024-07-30T06:57:00Z)
Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
論文参考訳（メタデータ） (2024-07-08T01:59:17Z)
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。 FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文参考訳（メタデータ） (2024-07-01T17:35:56Z)
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文参考訳（メタデータ） (2024-04-15T17:31:22Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
VarietySound: Timbre-Controllable Video to Sound Generation via Unsupervised Information Disentanglement [68.42632589736881]
ビデオ入力と参照音声サンプルを与えられた特定の音色で発音する作業を行う。この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。提案手法は,ビデオ中のイベントと高音質の音声サンプルを生成し,参照音声と高音質の類似性を示す。
論文参考訳（メタデータ） (2022-11-19T11:12:01Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2020-07-23T16:57:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。