論文の概要: Device-Guided Music Transfer
- arxiv url: http://arxiv.org/abs/2511.17136v1
- Date: Fri, 21 Nov 2025 10:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.980556
- Title: Device-Guided Music Transfer
- Title(参考訳): デバイスガイドによる音楽転送
- Authors: Manh Pham Hung, Changshuo Hu, Ting Dang, Dong Ma,
- Abstract要約: デバイスに誘導された音楽転送は、未確認のデバイス間で再生を適応させる。
DeMTは、視覚言語モデルを用いて話者の周波数応答曲線を線グラフとして処理し、デバイス埋め込みを抽出する。
自己コンパイルされたデータセットに基づいて微調整されたDeMTは、効果的な話者スタイルの転送と、目に見えないデバイスに対する堅牢な少数ショット適応を可能にする。
- 参考スコア(独自算出の注目度): 8.50518503755192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Device-guided music transfer adapts playback across unseen devices for users who lack them. Existing methods mainly focus on modifying the timbre, rhythm, harmony, or instrumentation to mimic genres or artists, overlooking the diverse hardware properties of the playback device (i.e., speaker). Therefore, we propose DeMT, which processes a speaker's frequency response curve as a line graph using a vision-language model to extract device embeddings. These embeddings then condition a hybrid transformer via feature-wise linear modulation. Fine-tuned on a self-collected dataset, DeMT enables effective speaker-style transfer and robust few-shot adaptation for unseen devices, supporting applications like device-style augmentation and quality enhancement.
- Abstract(参考訳): デバイスに誘導された音楽転送は、未確認のデバイス間で再生を適応させる。
既存の手法は主に、ジャンルやアーティストを模倣する音色、リズム、ハーモニー、楽器の修正に重点を置いており、再生装置(スピーカー)の様々なハードウェア特性を見渡している。
そこで我々は,話者の周波数応答曲線をライングラフとして,視覚言語モデルを用いて処理し,デバイス埋め込みを抽出するDeMTを提案する。
これらの埋め込みは、特徴量線形変調によってハイブリッドトランスを条件付ける。
自己コンパイルされたデータセットに基づいて微調整されたDeMTは、デバイススタイルの強化や品質向上といったアプリケーションをサポートする、効果的な話者スタイルの転送と、見えないデバイスに対する堅牢な数ショット適応を可能にする。
関連論文リスト
- EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning [23.191173421628015]
我々は、事前訓練されたテキストから音楽へのモデルへの軽量な追加であるAP-Adapterを提案する。
22Mのトレーニング可能なパラメータで、AP-Adapterはユーザーがグローバル(ジャンルや音色など)とローカル(メロディなど)の両方を活用できるようにする。
論文 参考訳(メタデータ) (2024-07-23T15:16:18Z) - Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Music Enhancement via Image Translation and Vocoding [14.356705444361832]
本稿では,低品質音楽録音の深層学習手法を提案する。
本稿では,メル-スペクトログラム表現における音声操作のイメージ・ツー・イメージ変換モデルと,合成したメル-スペクトログラムを知覚的に現実的な波形にマッピングする音楽ボコーディングモデルを組み合わせる。
メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。
論文 参考訳(メタデータ) (2022-04-28T05:00:07Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。