論文の概要: MixAssist: An Audio-Language Dataset for Co-Creative AI Assistance in Music Mixing
- arxiv url: http://arxiv.org/abs/2507.06329v1
- Date: Tue, 08 Jul 2025 18:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.359297
- Title: MixAssist: An Audio-Language Dataset for Co-Creative AI Assistance in Music Mixing
- Title(参考訳): MixAssist: 音楽ミキシングにおけるコクレーティブAIアシストのためのオーディオ言語データセット
- Authors: Michael Clemens, Ana Marasović,
- Abstract要約: MixAssistは、専門家とアマチュア音楽プロデューサーの間に位置するマルチターンの対話をキャプチャする、新しいオーディオ言語データセットである。
MixAssistは、音声コンテキストに根ざした共同創造的インストラクションに焦点を当てることで、インテリジェントAIアシスタントの開発を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While AI presents significant potential for enhancing music mixing and mastering workflows, current research predominantly emphasizes end-to-end automation or generation, often overlooking the collaborative and instructional dimensions vital for co-creative processes. This gap leaves artists, particularly amateurs seeking to develop expertise, underserved. To bridge this, we introduce MixAssist, a novel audio-language dataset capturing the situated, multi-turn dialogue between expert and amateur music producers during collaborative mixing sessions. Comprising 431 audio-grounded conversational turns derived from 7 in-depth sessions involving 12 producers, MixAssist provides a unique resource for training and evaluating audio-language models that can comprehend and respond to the complexities of real-world music production dialogues. Our evaluations, including automated LLM-as-a-judge assessments and human expert comparisons, demonstrate that fine-tuning models such as Qwen-Audio on MixAssist can yield promising results, with Qwen significantly outperforming other tested models in generating helpful, contextually relevant mixing advice. By focusing on co-creative instruction grounded in audio context, MixAssist enables the development of intelligent AI assistants designed to support and augment the creative process in music mixing.
- Abstract(参考訳): AIは、音楽のミキシングとマスタリングワークフローを強化する大きな可能性を示しているが、現在の研究は、主にエンドツーエンドの自動化や生成を強調しており、しばしば、共同創造プロセスに不可欠な協調的および指導的側面を見落としている。
このギャップはアーティスト、特に専門知識の育成を求めるアマチュアを遠ざけている。
そこで本稿では,MixAssistについて紹介する。MixAssistは,専門家とアマチュア音楽プロデューサーが協調的なミキシングセッションを行う際の,位置のあるマルチターン対話を抽出する新しい音声データセットである。
MixAssistは、12人のプロデューサーによる7つの深いセッションから派生した431の音声地上会話ターンを補完し、実世界の音楽制作対話の複雑さを理解し、応答することのできる、オーディオ言語モデルのトレーニングと評価のためのユニークなリソースを提供する。
LLM-as-a-judgeアセスメントの自動評価や人的専門家比較などの評価は、Qwen-Audio on MixAssistのような微調整モデルが有望な結果をもたらすことを示した。
MixAssistは、オーディオコンテキストに根ざした共同創造的指導に焦点を当てることで、音楽ミキシングにおける創造的プロセスのサポートと強化を目的として設計されたインテリジェントAIアシスタントの開発を可能にする。
関連論文リスト
- Musical Agent Systems: MACAT and MACataRT [6.349140286855134]
我々は,人間ミュージシャンとAIの対話的音楽制作を促進するために,MACATとMACataRTという2つの異なる音楽エージェントシステムを紹介した。
MaCATはエージェント主導のパフォーマンスに最適化されており、リアルタイム合成と自己リスニングを利用して出力を自律的に形作る。
MacataRTは、音声モザイクとシーケンスベースの学習を通じて協調的な即興性を実現するフレキシブルな環境を提供する。
論文 参考訳(メタデータ) (2025-01-19T22:04:09Z) - The Role of Communication and Reference Songs in the Mixing Process:
Insights from Professional Mix Engineers [0.0]
本稿では,技術者がクライアントとどのように相互作用し,そのフィードバックを用いてミキシングプロセスのガイドを行うかを理解することを目的とした,2段階の探索的研究の成果について述べる。
本研究の結果は, 混合プロセスにおける協調, 共感, 意図の重要性を浮き彫りにし, スマートマルチトラック混合システムの開発に寄与する。
論文 参考訳(メタデータ) (2023-09-06T23:45:09Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Automatic music mixing with deep learning and out-of-domain data [10.670987762781834]
伝統的に、音楽のミキシングは、クリーンで個々のトラックの形で楽器を録音し、オーディオ効果と専門家の知識を使ってそれらを最後のミキシングに混ぜる。
本稿では,モデルが自動音楽ミキシングを行うことのできる新しいデータ前処理手法を提案する。
また,音楽ミキシングシステム評価のためのリスニングテスト手法を再設計した。
論文 参考訳(メタデータ) (2022-08-24T10:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。