Fugu-MT 論文翻訳(概要): A novel LSTM music generator based on the fractional time-frequency feature extraction

論文の概要: A novel LSTM music generator based on the fractional time-frequency feature extraction

arxiv url: http://arxiv.org/abs/2604.17823v1
Date: Mon, 20 Apr 2026 05:22:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.709378
Title: A novel LSTM music generator based on the fractional time-frequency feature extraction
Title（参考訳）: 分数時間周波数特徴抽出に基づく新しいLSTM音楽生成器
Authors: Li Ya, Chen Wei, Li Xiulai, Yu Lei, Deng Xinyi, Chen Chaofan,
Abstract要約: 本稿では,人工知能(AI)システムに基づく新たな音楽生成手法を提案する。音楽の特徴を分析し,音楽の適合と予測に利用する。実験の結果,提案システムは人為的な音楽に匹敵する高品質な音楽を生成することができることがわかった。
参考スコア（独自算出の注目度）: 4.706353499643033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a novel approach for generating music based on an artificial intelligence (AI) system. We analyze the features of music and use them to fit and predict the music. The fractional Fourier transform (FrFT) and the long short-term memory (LSTM) network are the foundations of our method. The FrFT method is used to extract the spectral features of a music piece, where the music signal is expressed on the time and frequency domains. The LSTM network is used to generate new music based on the extracted features, where we predict the music according to the hidden layer features and real-time inputs using GiantMIDI-Piano dataset. The results of our experiments show that our proposed system is capable of generating high-quality music that is comparable to human-generated music.
Abstract（参考訳）: 本稿では,人工知能(AI)システムに基づく新たな音楽生成手法を提案する。音楽の特徴を分析し,音楽の適合と予測に利用する。分数フーリエ変換(FrFT)と長短期記憶(LSTM)ネットワークが本手法の基礎となっている。 FrFT法は、音楽信号が時間と周波数領域で表現される楽曲のスペクトル特徴を抽出するために用いられる。 LSTMネットワークは抽出した特徴に基づいて新しい音楽を生成するために使用され、GantiMIDI-Pianoデータセットを用いて隠れ層の特徴とリアルタイム入力に基づいて音楽を予測する。実験の結果,提案システムは人為的な音楽に匹敵する高品質な音楽を生成することができることがわかった。

関連論文リスト

Barwise Section Boundary Detection in Symbolic Music Using Convolutional Neural Networks [0.0]
セクション境界検出のための人手によるMIDIデータセットを提案する。第2に、固定長の音楽窓におけるセクション境界の存在を分類するために、深層学習モデルを訓練する。本モデルではF1スコアの0.77を達成し,類似した音声に基づく教師あり学習手法を改良した。
論文参考訳（メタデータ） (2025-09-20T07:52:08Z)
Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。 SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文参考訳（メタデータ） (2025-09-04T09:42:17Z)
Detecting Musical Deepfakes [0.0]
本研究では,FakeMusicCapsデータセットを用いたAI生成楽曲の検出について検討した。実世界の逆境条件をシミュレートするため, テンポストレッチとピッチシフトをデータセットに適用した。メルスペクトログラムは、修正されたオーディオから生成され、その後、畳み込みニューラルネットワークのトレーニングと評価に使用された。
論文参考訳（メタデータ） (2025-05-03T21:45:13Z)
TrOMR:Transformer-Based Polyphonic Optical Music Recognition [26.14383240933706]
本稿では, TrOMR と呼ばれる終端ポリフォニック OMR に対して, 優れた大域的知覚能力を有するトランスフォーマーベースアプローチを提案する。また、複雑な楽譜の認識精度を向上させるために、新しい整合損失関数とデータアノテーションの合理的なアプローチを導入する。
論文参考訳（メタデータ） (2023-08-18T08:06:27Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Music Generation Using an LSTM [52.77024349608834]
LSTM(Long Short-Term Memory)ネットワーク構造は、シリーズの次の出力の予測に非常に有用であることが証明されている。 Recurrent Neural Networks (RNN) を用いた音楽生成手法の実証我々は、音楽生成におけるLSTMの直感、理論、応用に関する簡単な要約を提供し、この目標を達成するのに最適なネットワークを開発し、提示し、直面する問題や課題を特定し、対処し、今後のネットワーク改善の可能性を含める。
論文参考訳（メタデータ） (2022-03-23T00:13:41Z)
Multi-Instrumentalist Net: Unsupervised Generation of Music from Body Movements [20.627164135805852]
本研究では、楽器を演奏するミュージシャンの入力体の動きを取り入れ、教師なしの環境で音楽を生成する新しいシステムを提案する。ログ・スペクトログラムから様々な楽器音楽の離散的な潜在表現を学習するパイプライン「Multi-instrumentalistNet」を構築した。 Midiは、パイプラインがビデオ内の楽器によって演奏される音楽の正確なコンテンツを生成するように、潜在空間をさらに調整できることを示しています。
論文参考訳（メタデータ） (2020-12-07T06:54:10Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)
Fast accuracy estimation of deep learning based multi-class musical source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文参考訳（メタデータ） (2020-10-19T13:05:08Z)
Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。合成音声は、対象楽器の音色及び調音を模倣する。
論文参考訳（メタデータ） (2020-08-30T05:27:39Z)
Learning to Denoise Historical Music [30.165194151843835]
そこで我々は,古い録音を聴くことを学習する音声から音声へのニューラルネットモデルを提案する。ネットワークは、ノイズの多い音楽データセット上で、再構成と敵の目的の両方で訓練される。提案手法は,原曲の品質と詳細を保存しながら,ノイズ除去に有効であることを示す。
論文参考訳（メタデータ） (2020-08-05T10:05:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。