Fugu-MT 論文翻訳(概要): Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling

論文の概要: Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling

arxiv url: http://arxiv.org/abs/2310.16334v2
Date: Tue, 29 Oct 2024 14:53:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.636362
Title: Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling
Title（参考訳）: スタイル事前モデリングによる構造付きマルチトラックアコーナメントアレンジメント
Authors: Jingwei Zhao, Gus Xia, Ziyu Wang, Ye Wang,
Abstract要約: 本稿では,これらの課題に対処するために,不整合型因子に対する事前モデリングを活用する新しいシステムを提案する。私たちのキーとなる設計は、ベクトル量子化と、オーケストレーションスタイルの長期フローをモデル化するためのユニークなマルチストリームトランスの使用です。本システムでは,既存のベースラインに比べて,コヒーレンス,構造,全体的な配置品質が優れていることを示す。
参考スコア（独自算出の注目度）: 9.489311894706765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the realm of music AI, arranging rich and structured multi-track accompaniments from a simple lead sheet presents significant challenges. Such challenges include maintaining track cohesion, ensuring long-term coherence, and optimizing computational efficiency. In this paper, we introduce a novel system that leverages prior modelling over disentangled style factors to address these challenges. Our method presents a two-stage process: initially, a piano arrangement is derived from the lead sheet by retrieving piano texture styles; subsequently, a multi-track orchestration is generated by infusing orchestral function styles into the piano arrangement. Our key design is the use of vector quantization and a unique multi-stream Transformer to model the long-term flow of the orchestration style, which enables flexible, controllable, and structured music generation. Experiments show that by factorizing the arrangement task into interpretable sub-stages, our approach enhances generative capacity while improving efficiency. Additionally, our system supports a variety of music genres and provides style control at different composition hierarchies. We further show that our system achieves superior coherence, structure, and overall arrangement quality compared to existing baselines.
Abstract（参考訳）: 音楽AIの領域では、単純なリードシートからリッチで構造化されたマルチトラックの伴奏を配置することが大きな課題である。このような課題には、トラック結合の維持、長期的な一貫性の確保、計算効率の最適化などが含まれる。本稿では,これらの課題に対処するために,不整合型因子に対する事前モデリングを活用する新しいシステムを提案する。本手法では,まず,ピアノのテクスチャスタイルを検索することにより,リードシートからピアノの配置を導出し,その後,ピアノの配置にオーケストラ関数スタイルを注入することにより,多トラックオーケストレーションを生成する。我々の鍵となる設計は、ベクトル量子化とユニークなマルチストリーム変換を用いて、フレキシブルで制御可能で構造化された音楽生成を可能にするオーケストレーションスタイルの長期フローをモデル化することである。実験により,アレンジメントタスクを解釈可能なサブステージに分解することで,効率を向上しつつ,生成能力を向上させることが確認された。さらに,本システムは様々なジャンルをサポートし,異なる構成階層におけるスタイル制御を提供する。さらに,本システムでは,既存のベースラインに比べて,コヒーレンス,構造,全体的な配置品質が優れていることを示す。

関連論文リスト

Structure-Aware Piano Accompaniment via Style Planning and Dataset-Aligned Pattern Retrieval [8.505620355469725]
シンボリックピアノ伴奏のための構造認識手法を提案する。変圧器は、セクション/フレーズ構造と機能調和に基づいて、解釈可能な、計測単位の計画を予測する。検索者は、コーパスから人為的なピアノパターンを選択して調和させる。
論文参考訳（メタデータ） (2026-02-16T03:54:34Z)
Integrating Diverse Assignment Strategies into DETRs [61.61489761918158]
ラベル割り当ては、特にDETRスタイルのフレームワークにおいて、オブジェクト検出器において重要なコンポーネントである。我々は,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
論文参考訳（メタデータ） (2026-01-14T07:28:54Z)
AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文参考訳（メタデータ） (2026-01-05T09:17:28Z)
Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode [0.0]
ピアノカバー生成は、ポップソングをピアノアレンジメントに変換することを目的としている。既存のモデルは、オリジナルの曲と構造的な整合性を維持するのに失敗することが多い。構造的類似性を定義するため、リズム情報は不可欠である。本モデルでは, 適切な楽曲構造を保ち, 流音や音楽のダイナミクスを向上し, 高い制御可能な生成を支援するカバーを製作する。
論文参考訳（メタデータ） (2025-09-20T04:06:43Z)
Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [72.44384066166147]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文参考訳（メタデータ） (2025-07-24T09:17:41Z)
FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure [8.721294663967305]
ディープ・ミュージック・ジェネレーションにおける新しいアプローチとしてTOMI(Transforming and Organizing Music Ideas)を紹介する。ビデオクリップ(短い音声またはMIDIセグメント)、セクション(時間的位置)、トラック(構造層)、変換によって特徴付けられる、スパースな4次元空間を介して、多トラック合成プロセスを表現する。本モデルでは,マルチトラックの電子楽曲を全曲構造で生成することが可能であり,TOMIモデルとREAPERデジタルオーディオワークステーションをさらに統合する。
論文参考訳（メタデータ） (2025-06-29T05:15:41Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement [6.873190001575463]
ImprovNetは、表現力と制御性のある即興演奏を生成するトランスフォーマーベースのアーキテクチャである。ジャンル固有のスタイルでメロディーを調和させ、短期間の即時継続および補充タスクを実行することができる。
論文参考訳（メタデータ） (2025-02-06T21:45:38Z)
Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement [10.714947060480426]
シンボリック・ミュージック・モデルの微調整を可能にする一貫したシーケンス・ツー・シーケンス・フレームワークを提案する。提案手法は,タスク固有のベースラインよりも高い音質が得られることを示す。
論文参考訳（メタデータ） (2024-08-27T16:18:51Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [20.733264277770154]
JEN-1 Composerは、マルチトラック音楽上の限界分布、条件分布、共同分布を効率的にモデル化するための統一されたフレームワークである。単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文参考訳（メタデータ） (2023-10-29T22:51:49Z)
Hierarchical Ensemble-Based Feature Selection for Time Series Forecasting [0.0]
非定常性のための階層的積み重ねに基づく特徴選択のための新しいアンサンブルアプローチを導入する。当社のアプローチでは,階層構造を用いた機能間の共依存を利用しています。このアプローチの有効性は、合成およびよく知られた実生活データセット上で実証される。
論文参考訳（メタデータ） (2023-10-26T16:40:09Z)
FormerTime: Hierarchical Multi-Scale Representations for Multivariate Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。 1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文参考訳（メタデータ） (2023-02-20T07:46:14Z)
SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance [88.0355290619761]
この作品は未知の楽器の分離に焦点を当てている。本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
論文参考訳（メタデータ） (2022-03-25T09:42:11Z)
Redefining Neural Architecture Search of Heterogeneous Multi-Network Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文参考訳（メタデータ） (2021-06-16T17:12:26Z)
A framework to compare music generative models using automatic evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文参考訳（メタデータ） (2021-01-19T15:04:46Z)
Learning Interpretable Representation for Controllable Polyphonic Music Generation [5.01266258109807]
我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
論文参考訳（メタデータ） (2020-08-17T07:11:16Z)
TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文参考訳（メタデータ） (2020-07-23T15:34:06Z)
Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。 Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文参考訳（メタデータ） (2020-01-06T18:35:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。