論文の概要: AlignNet: A Unifying Approach to Audio-Visual Alignment
- arxiv url: http://arxiv.org/abs/2002.05070v1
- Date: Wed, 12 Feb 2020 16:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:04:48.198722
- Title: AlignNet: A Unifying Approach to Audio-Visual Alignment
- Title(参考訳): AlignNet: オーディオ・ビジュアル・アライメントへの統一的アプローチ
- Authors: Jianren Wang, Zhaoyuan Fang, Hang Zhao
- Abstract要約: 非一様および不規則な不一致の下でビデオと参照オーディオを同期するモデルであるAlignNetを提案する。
我々の手法は、注意、ピラミッド処理、ワープ、親和性関数といった、シンプルで確立された原則に従って設計されている。
- 参考スコア(独自算出の注目度): 23.80283237700102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AlignNet, a model that synchronizes videos with reference audios
under non-uniform and irregular misalignments. AlignNet learns the end-to-end
dense correspondence between each frame of a video and an audio. Our method is
designed according to simple and well-established principles: attention,
pyramidal processing, warping, and affinity function. Together with the model,
we release a dancing dataset Dance50 for training and evaluation. Qualitative,
quantitative and subjective evaluation results on dance-music alignment and
speech-lip alignment demonstrate that our method far outperforms the
state-of-the-art methods. Project video and code are available at
https://jianrenw.github.io/AlignNet.
- Abstract(参考訳): 非一様および不規則な不一致の下でビデオと参照オーディオを同期するモデルであるAlignNetを提案する。
AlignNetは、ビデオの各フレームとオーディオの間のエンドツーエンドの高密度な対応を学習する。
本手法は,注意,ピラミッド処理,ワーピング,親和性関数という,単純かつ確立された原則に従って設計されている。
このモデルと合わせて,トレーニングと評価のためのダンスデータセットdance50をリリースする。
ダンス・ミュージック・アライメントと音声・リップアライメントの質的,定量的,主観的な評価結果は,我々の手法が最先端の手法よりも優れていることを示している。
プロジェクトビデオとコードはhttps://jianrenw.github.io/alignnetで入手できる。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Audio-driven Neural Gesture Reenactment with Video Motion Graphs [30.449816206864632]
本稿では,ターゲット音声と一致するジェスチャーで高品質な映像を再現する手法を提案する。
提案手法の鍵となる考え方は,クリップ間の有効な遷移を符号化した新しい動画モーショングラフを通じて,参照ビデオからクリップを分割,再組み立てすることである。
異なるクリップをシームレスに接続するために、2つのクリップの間に縫合されたフレームの周囲にビデオフレームを合成するポーズ対応ビデオブレンディングネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-23T14:02:57Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。