Fugu-MT 論文翻訳(概要): GANterpretations

論文の概要: GANterpretations

arxiv url: http://arxiv.org/abs/2011.05158v1
Date: Fri, 6 Nov 2020 19:08:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 04:32:01.612261
Title: GANterpretations
Title（参考訳）: GANterpretations
Authors: Pablo Samuel Castro
Abstract要約: 本稿では、GANのパワーを用いて、音声録音に付随する映像を自動的に生成する手法を提案する。これにより、ミュージシャンはマルチモーダルなクリエイティブな表現の新たな形態を探求することができる。
参考スコア（独自算出の注目度）: 16.021870805255734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since the introduction of Generative Adversarial Networks (GANs) [Goodfellow et al., 2014] there has been a regular stream of both technical advances (e.g., Arjovsky et al. [2017]) and creative uses of these generative models (e.g., [Karras et al., 2019, Zhu et al., 2017, Jin et al., 2017]). In this work we propose an approach for using the power of GANs to automatically generate videos to accompany audio recordings by aligning to spectral properties of the recording. This allows musicians to explore new forms of multi-modal creative expression, where musical performance can induce an AI-generated musical video that is guided by said performance, as well as a medium for creating a visual narrative to follow a storyline (similar to what was proposed by Frosst and Kereliuk [2019]).
Abstract（参考訳）: Generative Adversarial Networks (GANs) [Goodfellow et al., 2014] の導入以来、これらの生成モデル(例えば、Karras et al., 2019, Zhu et al., 2017, Jin et al., 2017)の創造的利用と技術進歩(例えば、Arjovsky et al. [2017])の両方が定期的に流れてきた。本研究では,gansのパワーを生かして,録音のスペクトル特性に合わせることにより,音声記録に付随する映像を自動的に生成する手法を提案する。これによりミュージシャンは、その演奏によって誘導されるAI生成の音楽ビデオを、ストーリーラインに従うためのビジュアルな物語を作るための媒体(FrosstとKeleliuk(2019年)が提案したものと似ている)を、新しい形態のマルチモーダルなクリエイティブな表現を探求することができる。

関連論文リスト

Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文参考訳（メタデータ） (2025-04-10T09:47:26Z)
YuE: Scaling Open Foundation Models for Long-Form Music Generation [134.54174498094565]
YuEはLLaMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーである。歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏を伴う声楽メロディを維持しながら、最大5分間の音楽を生成する。
論文参考訳（メタデータ） (2025-03-11T17:26:50Z)
Unrolled Creative Adversarial Network For Generating Novel Musical Pieces [0.0]
GAN(Generative Adversarial Network)およびGAN(Generative Adversarial Network)は、音楽生成の研究者によって研究されている。本稿では,創造的な音楽を生み出すための新しいシステムとともに,古典的なシステムを採用した。 GANは、その分布から学び模倣する一連の入力を与えられた新しい出力を生成することができる。
論文参考訳（メタデータ） (2024-12-31T14:07:59Z)
Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。 ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文参考訳（メタデータ） (2024-10-19T05:44:05Z)
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。 DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文参考訳（メタデータ） (2024-10-17T16:32:36Z)
Efficient Fine-Grained Guidance for Diffusion-Based Symbolic Music Generation [14.156461396686248]
拡散モデルにFGG(Fined Guidance)アプローチを導入する。 FGGは拡散モデルをガイドし、専門家作曲家の制御と意図とより密に整合した音楽を生成する。このアプローチは拡散モデルにより、即興性やインタラクティブな音楽生成といった高度な応用に優れる。
論文参考訳（メタデータ） (2024-10-11T00:41:46Z)
TeaserGen: Generating Teasers for Long Documentaries [59.8220642722399]
1,269の文書集であるDocumentaryNetをティーザーと組み合わせて紹介する。長文からティーザーを生成するための新しい2段階システムを提案する。
論文参考訳（メタデータ） (2024-10-08T01:00:09Z)
SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文参考訳（メタデータ） (2024-09-09T19:37:07Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文参考訳（メタデータ） (2023-05-11T06:26:41Z)
Generative Disco: Text-to-Video Generation for Music Visualization [9.53563436241774]
我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。このシステムは、ユーザーが音楽の開始と終了を知らせるプロンプトを見つけ出し、それらの間を音楽のビートに補間する。色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。
論文参考訳（メタデータ） (2023-04-17T18:44:00Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。