論文の概要: Device-Guided Music Transfer
- arxiv url: http://arxiv.org/abs/2511.17136v1
- Date: Fri, 21 Nov 2025 10:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.980556
- Title: Device-Guided Music Transfer
- Title(参考訳): デバイスガイドによる音楽転送
- Authors: Manh Pham Hung, Changshuo Hu, Ting Dang, Dong Ma,
- Abstract要約: デバイスに誘導された音楽転送は、未確認のデバイス間で再生を適応させる。
DeMTは、視覚言語モデルを用いて話者の周波数応答曲線を線グラフとして処理し、デバイス埋め込みを抽出する。
自己コンパイルされたデータセットに基づいて微調整されたDeMTは、効果的な話者スタイルの転送と、目に見えないデバイスに対する堅牢な少数ショット適応を可能にする。
- 参考スコア(独自算出の注目度): 8.50518503755192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Device-guided music transfer adapts playback across unseen devices for users who lack them. Existing methods mainly focus on modifying the timbre, rhythm, harmony, or instrumentation to mimic genres or artists, overlooking the diverse hardware properties of the playback device (i.e., speaker). Therefore, we propose DeMT, which processes a speaker's frequency response curve as a line graph using a vision-language model to extract device embeddings. These embeddings then condition a hybrid transformer via feature-wise linear modulation. Fine-tuned on a self-collected dataset, DeMT enables effective speaker-style transfer and robust few-shot adaptation for unseen devices, supporting applications like device-style augmentation and quality enhancement.
- Abstract(参考訳): デバイスに誘導された音楽転送は、未確認のデバイス間で再生を適応させる。
既存の手法は主に、ジャンルやアーティストを模倣する音色、リズム、ハーモニー、楽器の修正に重点を置いており、再生装置(スピーカー)の様々なハードウェア特性を見渡している。
そこで我々は,話者の周波数応答曲線をライングラフとして,視覚言語モデルを用いて処理し,デバイス埋め込みを抽出するDeMTを提案する。
これらの埋め込みは、特徴量線形変調によってハイブリッドトランスを条件付ける。
自己コンパイルされたデータセットに基づいて微調整されたDeMTは、デバイススタイルの強化や品質向上といったアプリケーションをサポートする、効果的な話者スタイルの転送と、見えないデバイスに対する堅牢な数ショット適応を可能にする。
関連論文リスト
- MotionAdapter: Video Motion Transfer via Content-Aware Attention Customization [73.07309070257162]
MotionAdapterは、ロバストでセマンティックに整合したモーション転送を可能にする、コンテンツ対応のモーション転送フレームワークである。
我々の重要な洞察は、効果的な動き伝達は外見から運動を明示的に切り離す必要があることである。
MotionAdapterは自然に複雑なモーション転送とズームのようなモーション編集タスクをサポートする。
論文 参考訳(メタデータ) (2026-01-05T10:01:27Z) - EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning [23.191173421628015]
我々は、事前訓練されたテキストから音楽へのモデルへの軽量な追加であるAP-Adapterを提案する。
22Mのトレーニング可能なパラメータで、AP-Adapterはユーザーがグローバル(ジャンルや音色など)とローカル(メロディなど)の両方を活用できるようにする。
論文 参考訳(メタデータ) (2024-07-23T15:16:18Z) - Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - FM Tone Transfer with Envelope Learning [8.771755521263811]
トーントランスファー(トーントランスファー)は、音源をシンセサイザーで対向させ、音楽の形式を保ちながら音の音色を変換する新しい技法である。
音の多様性の低さや、過渡的および動的レンダリングの制限に関連するいくつかの欠点があり、リアルタイムなパフォーマンスの文脈における調音やフレーズ化の可能性を妨げていると我々は信じている。
論文 参考訳(メタデータ) (2023-10-07T14:03:25Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Device-Robust Acoustic Scene Classification via Impulse Response
Augmentation [5.887969742827488]
CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果について検討する。
その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様に動作することがわかった。
また、DIR増幅とFreq-MixStyleは相補的であり、トレーニング中に見えないデバイスによって記録された信号に対して、新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-12T14:12:56Z) - Music Enhancement via Image Translation and Vocoding [14.356705444361832]
本稿では,低品質音楽録音の深層学習手法を提案する。
本稿では,メル-スペクトログラム表現における音声操作のイメージ・ツー・イメージ変換モデルと,合成したメル-スペクトログラムを知覚的に現実的な波形にマッピングする音楽ボコーディングモデルを組み合わせる。
メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。
論文 参考訳(メタデータ) (2022-04-28T05:00:07Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。