Fugu-MT 論文翻訳(概要): Automated Time-frequency Domain Audio Crossfades using Graph Cuts

論文の概要: Automated Time-frequency Domain Audio Crossfades using Graph Cuts

arxiv url: http://arxiv.org/abs/2301.13380v1
Date: Tue, 31 Jan 2023 03:05:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-01 17:52:50.293987
Title: Automated Time-frequency Domain Audio Crossfades using Graph Cuts
Title（参考訳）: グラフカットを用いた時間周波数領域オーディオクロスフェードの自動生成
Authors: Kyle Robinson, Dan Brown
Abstract要約: 我々は、周波数スペクトルをビンに識別することで、ある音声クリップから別の音声クリップに自動的に遷移する新しい方法に向けた第一歩を提示する。この問題をグラフフロー最適化の1つ、具体的にはmin-cut/max-flowと表現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The problem of transitioning smoothly from one audio clip to another arises in many music consumption scenarios, especially as music consumption has moved from professionally curated and live-streamed radios to personal playback devices and services. we present the first steps toward a new method of automatically transitioning from one audio clip to another by discretizing the frequency spectrum into bins and then finding transition times for each bin. We phrase the problem as one of graph flow optimization; specifically min-cut/max-flow.
Abstract（参考訳）: あるオーディオクリップから別のオーディオクリップへスムーズに移行する問題は、特に音楽消費がプロのキュレートされたライブストリーミングラジオからパーソナルな再生デバイスやサービスへと移行してきたため、多くの音楽消費シナリオで発生する。周波数スペクトルをビンに判別し,各ビンの遷移時間を求めることによって,音声クリップから別の音声クリップへ自動的に遷移する新しい方法を提案する。この問題をグラフフロー最適化の1つ、具体的にはmin-cut/max-flowと表現する。

関連論文リスト

Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文参考訳（メタデータ） (2025-06-23T17:52:16Z)
Music2Latent: Consistency Autoencoders for Latent Audio Compression [0.0]
一貫性モデルを活用することで制限を克服するオーディオオートエンコーダであるMusic2Latentを紹介する。 Music2Latentは、単一エンドツーエンドのトレーニングプロセスにおいて、サンプルを圧縮された連続潜伏空間にエンコードする。 Music2Latentは、音質と再現精度において、既存の連続オーディオオートエンコーダよりも優れていることを示す。
論文参考訳（メタデータ） (2024-08-12T21:25:19Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
Music Style Transfer With Diffusion Model [11.336043499372792]
本研究では,拡散モデル(DM)に基づく音楽スタイルの転送フレームワークを提案し,スペクトル法を用いてマルチ・マルチ・マルチ音楽スタイルの転送を実現する。 GuideDiff法は、スペクトルを高忠実度オーディオに復元し、音声生成速度を加速し、生成されたオーディオのノイズを低減するために用いられる。
論文参考訳（メタデータ） (2024-04-23T06:22:19Z)
STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文参考訳（メタデータ） (2023-10-12T10:50:21Z)
Musical Voice Separation as Link Prediction: Modeling a Musical Perception Task as a Multi-Trajectory Tracking Problem [6.617487928813374]
本論文は,ポリフォニック音楽作品において,異なる相互作用する声,すなわちモノフォニック・メロディック・ストリームを分離する知覚的タスクを目標とする。我々はこのタスクを、離散的な観測、すなわちピッチ時間空間における音符から、MTT(Multi-Trajectory Tracking)問題としてモデル化する。提案手法では,音符毎に1つのノードを作成し,同じ音声/ストリームで連続している場合の2つの音符間のリンクを予測し,旋律的軌跡を分離することにより,楽譜からグラフを構築する。
論文参考訳（メタデータ） (2023-04-28T13:48:00Z)
Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文参考訳（メタデータ） (2022-10-20T15:03:22Z)
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2022-07-08T10:10:39Z)
Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文参考訳（メタデータ） (2021-08-08T18:06:21Z)
Differentiable Signal Processing With Black-Box Audio Effects [44.93154498647659]
本稿では,ステートフルなサードパーティの音声効果をディープニューラルネットワーク内のレイヤとして組み込むことで,音声信号処理を自動化するデータ駆動手法を提案する。我々の手法は、音楽マスタリングのための専門的で最先端の商用ソリューションに匹敵する結果を得られることを示す。
論文参考訳（メタデータ） (2021-05-11T02:20:22Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。