論文の概要: Evaluating Disentangled Representations for Controllable Music Generation
- arxiv url: http://arxiv.org/abs/2602.10058v1
- Date: Tue, 10 Feb 2026 18:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.745212
- Title: Evaluating Disentangled Representations for Controllable Music Generation
- Title(参考訳): 制御可能な音楽生成のためのアンタングル表現の評価
- Authors: Laura Ibáñez-Martínez, Chukwuemeka Nkama, Andrea Poltronieri, Xavier Serra, Martín Rocamora,
- Abstract要約: 探索型フレームワークを用いた制御可能生成のための音楽音響モデルにおける不整合表現の評価を行った。
選択されたモデルは、インダクティブバイアス、データ拡張、敵対的目標、ステージドトレーニング手順など、さまざまな教師なしの非絡み合い戦略を反映している。
本研究により, 埋め込みの意図的意味論と実際の意味論の矛盾が明らかとなり, 現状の戦略が真に不整合表現を生み出すには至っていないことが示唆された。
- 参考スコア(独自算出の注目度): 8.177554704838213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches in music generation rely on disentangled representations, often labeled as structure and timbre or local and global, to enable controllable synthesis. Yet the underlying properties of these embeddings remain underexplored. In this work, we evaluate such disentangled representations in a set of music audio models for controllable generation using a probing-based framework that goes beyond standard downstream tasks. The selected models reflect diverse unsupervised disentanglement strategies, including inductive biases, data augmentations, adversarial objectives, and staged training procedures. We further isolate specific strategies to analyze their effect. Our analysis spans four key axes: informativeness, equivariance, invariance, and disentanglement, which are assessed across datasets, tasks, and controlled transformations. Our findings reveal inconsistencies between intended and actual semantics of the embeddings, suggesting that current strategies fall short of producing truly disentangled representations, and prompting a re-examination of how controllability is approached in music generation.
- Abstract(参考訳): 音楽生成における近年のアプローチは、制御可能な合成を可能にするために、しばしば構造と音色または局所的およびグローバルとしてラベル付けされる、絡み合った表現に依存している。
しかし、これらの埋め込みの根底にある性質は未解明のままである。
本研究では,従来のダウンストリームタスクを超越した探索型フレームワークを用いて,一連の音楽音響モデルにおいて,このような不整合表現を制御可能な生成のために評価する。
選択されたモデルは、インダクティブバイアス、データ拡張、敵対的目標、ステージドトレーニング手順など、さまざまな教師なしの非絡み合い戦略を反映している。
さらに、その効果を分析するための具体的な戦略を分離する。
我々の分析は4つの重要な軸(情報性、等価性、不変性、非絡み合い)に及び、データセット、タスク、制御された変換で評価される。
本研究により, 組込みの意図的意味論と実際の意味論の矛盾が明らかとなり, 現状の戦略は, 真の非絡み合い表現を生み出すに足りず, 音楽生成における可制御性の再検討を促すことが示唆された。
関連論文リスト
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Introspection in Learned Semantic Scene Graph Localisation [7.222321327403328]
本研究は,セマンティックスが自己監督型コントラスト型セマンティックローカライゼーションフレームワークにおいて,セマンティックスがローカライズ性能とロバスト性にどのように影響するかを考察する。
本研究では, モデルが環境騒音をフィルタし, 特異なランドマークを日常的に乱雑に優先するかどうかを調査するために, 徹底的なポストホックイントロスペクション分析を行う。
以上の結果から,このモデルでは位置定義に関する意味論的に健全な関係を学習し,視覚的・構造的な難易度で説明可能な登録を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-10-08T14:21:45Z) - Spatial Reasoners for Continuous Variables in Any Domain [49.83744014336816]
本稿では,連続変数に対する空間的推論を生成的認知モデルを用いて行うための枠組みを提案する。
任意のデータドメイン、生成モデルパラダイム、推論戦略から変数マッピングを制御するインターフェースを提供する。
論文 参考訳(メタデータ) (2025-07-14T19:46:54Z) - A Large-scale Benchmark on Geological Fault Delineation Models: Domain Shift, Training Dynamics, Generalizability, Evaluation and Inferential Behavior [11.859145373647474]
本研究は,地震解析における領域シフト戦略のガイドラインを提供するために設計された,最初の大規模ベンチマーク研究である。
私たちのベンチマークでは、モデルアーキテクチャ、データセット、トレーニング戦略を3つのデータセットで200以上組み合わせています。
我々の分析は、ソースとターゲットのデータセットが結合していない場合、一般的な微調整のプラクティスが破滅的な忘れを招きかねないことを示している。
論文 参考訳(メタデータ) (2025-05-13T13:56:43Z) - Nonparametric Factor Analysis and Beyond [14.232694150264628]
非無視設定における潜伏変数を識別するための一般的なフレームワークを提案する。
生成モデルは,非無視ノイズの存在下においても,ある部分多様体不確定性まで同定可能であることを示す。
また、対応する推定手法を開発し、様々な合成および実世界の設定で検証した。
論文 参考訳(メタデータ) (2025-03-21T05:45:03Z) - Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case
Study Using Music Audio [17.214062755082065]
Disentangled Sequence Autoencoder (DSAE) は確率的グラフィカルモデルのクラスを表す。
バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であることを示す。
本稿では,まずシーケンスレベルの事前分布を学習する2段階のトレーニングフレームワークTS-DSAEを提案する。
論文 参考訳(メタデータ) (2022-05-12T04:11:25Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Disentangling Action Sequences: Discovering Correlated Samples [6.179793031975444]
我々は、データ自体が要因ではなく非絡み合いにおいて重要な役割を担い、非絡み合い表現は潜在変数とアクションシーケンスとを一致させることを示した。
本稿では,アクションシーケンスをステップバイステップで切り離すための新しいフレームワークFVAEを提案する。
dSprites と 3D Chairs の実験結果から, FVAE は絡み合いの安定性を向上させることが示された。
論文 参考訳(メタデータ) (2020-10-17T07:37:50Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。