Fugu-MT 論文翻訳(概要): FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos

論文の概要: FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos

arxiv url: http://arxiv.org/abs/2107.09262v1
Date: Tue, 20 Jul 2021 04:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-21 21:56:06.748135
Title: FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos
Title（参考訳）: foleygan:サイレントビデオにおける視覚誘導生成広告ネットワークに基づく同期音生成
Authors: Sanchita Ghose and John J. Prevost
Abstract要約: 本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning based visual to sound generation systems essentially need to be developed particularly considering the synchronicity aspects of visual and audio features with time. In this research we introduce a novel task of guiding a class conditioned generative adversarial network with the temporal visual information of a video input for visual to sound generation task adapting the synchronicity traits between audio-visual modalities. Our proposed FoleyGAN model is capable of conditioning action sequences of visual events leading towards generating visually aligned realistic sound tracks. We expand our previously proposed Automatic Foley dataset to train with FoleyGAN and evaluate our synthesized sound through human survey that shows noteworthy (on average 81\%) audio-visual synchronicity performance. Our approach also outperforms in statistical experiments compared with other baseline models and audio-visual datasets.
Abstract（参考訳）: 深層学習に基づく視覚音声生成システムは、特に視覚的特徴と音声的特徴の時間的同期性を考慮して開発する必要がある。本研究では,映像入力の時間的視覚情報を含むクラス条件付き生成逆ネットワークを,音声と視覚の同期性に適応した音声生成タスクに導く新しいタスクを提案する。提案するフォレーガンモデルは、視覚イベントの動作シーケンスを条件付けし、視覚的に整列したリアルなサウンドトラックを生成することができる。提案するfoleyデータセットを拡張して,foleyganとのトレーニングを行い,音声と視覚の同期性に有意な(平均81.%)性能を示すヒューマンサーベイによる合成音の評価を行った。また,本手法は,他のベースラインモデルや視聴覚データセットと比較して,統計的実験よりも優れている。

関連論文リスト

FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment [11.796771978828403]
ビデオから時間的コヒーレントかつ意味論的に制御可能な音響効果を生成する2段階生成フレームワークであるFolAIを紹介する。その結果、我々のモデルは、時間的に視覚運動に整合し、意味的にユーザ意図と整合し、知覚的にリアルな音声を確実に生成することがわかった。これらの知見は、FolAIがプロと対話的な環境でスケーラブルで高品質なフォーリー音声合成のための、制御可能でモジュラーなソリューションとしての可能性を強調している。
論文参考訳（メタデータ） (2024-12-19T16:37:19Z)
Sound2Vision: Generating Diverse Visuals from Audio through Cross-Modal Latent Alignment [18.08290178587821]
そこで本研究では,様々な音から視覚シーンの画像を生成する手法を提案する。このクロスモーダル生成タスクは、聴覚信号と視覚信号の間に重要な情報ギャップがあるため困難である。
論文参考訳（メタデータ） (2024-12-09T05:04:50Z)
Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。 Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文参考訳（メタデータ） (2024-11-18T10:42:27Z)
Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文参考訳（メタデータ） (2024-07-10T08:40:39Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文参考訳（メタデータ） (2023-02-15T15:00:55Z)
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文参考訳（メタデータ） (2023-02-04T04:17:19Z)
Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Temporal Synchronicity [12.995632804090198]
CrissCrossは、音声視覚表現を学習するための自己教師型フレームワークである。音声と視覚の時間的同期を緩和することにより、ネットワークは強い時間不変表現を学習することを示す。
論文参考訳（メタデータ） (2021-11-09T20:24:19Z)
Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文参考訳（メタデータ） (2021-11-05T14:35:08Z)
Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2021-09-24T13:40:51Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)
Look, Listen, and Attend: Co-Attention Network for Self-Supervised Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文参考訳（メタデータ） (2020-08-13T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。