論文の概要: Improving AI-generated music with user-guided training
- arxiv url: http://arxiv.org/abs/2506.04852v1
- Date: Thu, 05 Jun 2025 10:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.65657
- Title: Improving AI-generated music with user-guided training
- Title(参考訳): ユーザガイド学習によるAI生成音楽の改善
- Authors: Vishwa Mohan Singh, Sai Anirudh Aryasomayajula, Ahan Chatterjee, Beste Aydemir, Rifat Mehreen Amin,
- Abstract要約: 画像生成アルゴリズムは、新しい音楽を生成するために応用することができる。
これらのアルゴリズムは通常、固定データセットに基づいて訓練される。
本稿では,ユーザインタラクションに基づくアルゴリズムの性能向上のためのヒューマン・コンピューティング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI music generation has advanced rapidly, with models like diffusion and autoregressive algorithms enabling high-fidelity outputs. These tools can alter styles, mix instruments, or isolate them. Since sound can be visualized as spectrograms, image-generation algorithms can be applied to generate novel music. However, these algorithms are typically trained on fixed datasets, which makes it challenging for them to interpret and respond to user input accurately. This is especially problematic because music is highly subjective and requires a level of personalization that image generation does not provide. In this work, we propose a human-computation approach to gradually improve the performance of these algorithms based on user interactions. The human-computation element involves aggregating and selecting user ratings to use as the loss function for fine-tuning the model. We employ a genetic algorithm that incorporates user feedback to enhance the baseline performance of a model initially trained on a fixed dataset. The effectiveness of this approach is measured by the average increase in user ratings with each iteration. In the pilot test, the first iteration showed an average rating increase of 0.2 compared to the baseline. The second iteration further improved upon this, achieving an additional increase of 0.39 over the first iteration.
- Abstract(参考訳): AI音楽生成は急速に進歩し、拡散や自己回帰アルゴリズムのようなモデルで高忠実度出力を実現している。
これらのツールは、スタイルを変更したり、楽器を混ぜたり、分離したりすることができる。
音はスペクトログラムとして可視化できるため、新しい音楽を生成するために画像生成アルゴリズムを適用することができる。
しかしながら、これらのアルゴリズムは通常、固定データセットに基づいてトレーニングされるため、ユーザの入力を正確に解釈し、応答することは困難である。
音楽は非常に主観的であり、画像生成が提供しないようなパーソナライゼーションのレベルを必要とするため、これは特に問題となる。
本研究では,ユーザインタラクションに基づくアルゴリズムの性能向上を図るために,人間計算手法を提案する。
人間の計算要素は、モデルを微調整する損失関数として使用するユーザレーティングを集約し、選択することを含む。
我々は、ユーザフィードバックを組み込んだ遺伝的アルゴリズムを用いて、当初、固定データセットでトレーニングされたモデルのベースライン性能を向上させる。
このアプローチの有効性は、各イテレーションによるユーザレーティングの平均的な増加によって測定される。
パイロットテストでは、最初のイテレーションでは、ベースラインと比較して平均格付けが0.2%上昇した。
2回目のイテレーションではさらに改善され、最初のイテレーションで0.39の増加が達成された。
関連論文リスト
- POET: Prompt Offset Tuning for Continual Human Action Adaptation [61.63831623094721]
ユーザと開発者に対して,デバイスモデルに新たなアクションクラスを継続的に追加することで,エクスペリエンスをパーソナライズする機能の提供を目標としています。
我々はこれをプライバシーに配慮した数発の連続的な行動認識として定式化する。
本稿では,新しい時間的学習可能なプロンプトチューニング手法を提案し,グラフニューラルネットワークにこのようなプロンプトチューニングを適用した。
論文 参考訳(メタデータ) (2025-04-25T04:11:24Z) - Outlier-Robust Training of Machine Learning Models [21.352210662488112]
本稿では,外部学習を用いた機械学習モデルの学習のための適応交替アルゴリズムを提案する。
アルゴリズムは、各重みを更新しながら、非ロバスト損失の重み付きバージョンを使用してモデルを反復的に訓練する。
任意の外接点(すなわち、外接点に分布的な仮定がない)を考えると、ロバストな損失核のシグマの使用は収束の領域を増大させる。
論文 参考訳(メタデータ) (2024-12-31T04:19:53Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models [54.641726517633025]
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - Enhancing Cross-Dataset Performance of Distracted Driving Detection With Score Softmax Classifier And Dynamic Gaussian Smoothing Supervision [6.891556476231427]
ディープニューラルネットワークは、車内ドライバのリアルタイム監視を可能にし、邪魔や疲労、潜在的な危険のタイムリーな予測を容易にする。
最近の研究では、限られたデータサンプルとバックグラウンドノイズにより、信頼性の低いクロスデータセットドライバの動作認識が明らかにされている。
Score-Softmax分類器を提案し、カテゴリ独立性を高めてモデル過信を低減する。
論文 参考訳(メタデータ) (2023-10-08T15:28:01Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Image reconstruction algorithms in radio interferometry: from
handcrafted to learned denoisers [7.1439425093981574]
本稿では,プラグイン・アンド・プレイ方式にヒントを得た,無線干渉計測のための新しい画像再構成アルゴリズムを提案する。
このアプローチは、ディープニューラルネットワーク(DNN)をノイズとしてトレーニングすることで、事前の画像モデルを学ぶことで構成される。
学習したデノイザをフォワード-バックワード最適化アルゴリズムにプラグインし、デノイザのステップをグラデーション-ディフレッシュなデータ-忠実度ステップで交互に繰り返す単純な反復構造を与える。
論文 参考訳(メタデータ) (2022-02-25T20:26:33Z) - Accurate, Interpretable, and Fast Animation: AnIterative, Sparse, and
Nonconvex Approach [0.9176056742068814]
フェイスリグは正確でなければならないと同時に、その問題を解決するために高速に計算する必要がある。
各共通アニメーションモデルのパラメータの1つは、スパーシティ正規化である。
複雑性を低減するため、パラダイム・プライマリゼーション・ミニ(MM)が適用される。
論文 参考訳(メタデータ) (2021-09-17T05:42:07Z) - TAdam: A Robust Stochastic Gradient Optimizer [6.973803123972298]
機械学習アルゴリズムは、特にロボット分野において、いくつかのノイズを含むかもしれない観察からパターンを見つけることを目的としている。
このようなノイズにうまく対処するためには、外乱を検知し、必要に応じて破棄できると期待している。
そこで本研究では,アルゴリズムに頑健性を直接組み込んだ勾配最適化手法を提案し,その中核となる概念として頑健な学生分布を用いた。
論文 参考訳(メタデータ) (2020-02-29T04:32:36Z) - Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad
Samples [67.11669996924671]
GAN(Generative Adversarial Network)トレーニングアルゴリズムに,簡単な修正(一行のコード)を導入する。
ジェネレータパラメータを更新するとき、批判者が最も現実的に評価するバッチの要素から勾配のコントリビューションをゼロにします。
このトップk更新の手順が一般的に適用可能な改善であることを示す。
論文 参考訳(メタデータ) (2020-02-14T19:27:50Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。