Fugu-MT 論文翻訳(概要): Fusing Memory and Attention: A study on LSTM, Transformer and Hybrid Architectures for Symbolic Music Generation

論文の概要: Fusing Memory and Attention: A study on LSTM, Transformer and Hybrid Architectures for Symbolic Music Generation

arxiv url: http://arxiv.org/abs/2603.21282v1
Date: Sun, 22 Mar 2026 15:14:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.326177
Title: Fusing Memory and Attention: A study on LSTM, Transformer and Hybrid Architectures for Symbolic Music Generation
Title（参考訳）: 記憶と注意:シンボリック音楽生成のためのLSTM, トランスフォーマー, ハイブリッドアーキテクチャに関する研究
Authors: Soudeep Ghoshal, Sandipan Chakraborty, Pradipto Chowdhury, Himanshu Buckchash,
Abstract要約: トランスフォーマーやLong Short-Term Memory(LSTM)ネットワークなどの機械学習技術は、シンボリック・ミュージック・ジェネレーション(SMG)において重要な役割を果たす。既存の文献は、LSTMとトランスフォーマーの違いとして、局所的なメロディック連続性をモデル化する能力と、グローバルな構造的コヒーレンスを維持する能力があることを示している。我々の研究は、これらのモデルの重要な特徴を強調し、それらの特性がどのように優れたモデルの設計に活用できるかを示す。
参考スコア（独自算出の注目度）: 1.5984927623688912
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Machine learning techniques, such as Transformers and Long Short-Term Memory (LSTM) networks, play a crucial role in Symbolic Music Generation (SMG). Existing literature indicates a difference between LSTMs and Transformers regarding their ability to model local melodic continuity versus maintaining global structural coherence. However, their specific properties within the context of SMG have not been systematically studied. This paper addresses this gap by providing a fine-grained comparative analysis of LSTMs versus Transformers for SMG, examining local and global properties in detail using 17 musical quality metrics on the Deutschl dataset. We find that LSTM networks excel at capturing local patterns but fail to preserve long-range dependencies, while Transformers model global structure effectively but tend to produce irregular phrasing. Based on this analysis and leveraging their respective strengths, we propose a Hybrid architecture combining a Transformer Encoder with an LSTM Decoder and evaluate it against both baselines. We evaluated 1,000 generated melodies from each of the three architectures on the Deutschl dataset. The results show that the hybrid method achieves better local and global continuity and coherence compared to the baselines. Our work highlights the key characteristics of these models and demonstrates how their properties can be leveraged to design superior models. We also supported the experiments with ablation studies and human perceptual evaluations, which statistically support the findings and provide robust validation for this work.
Abstract（参考訳）: トランスフォーマーやLSTM(Long Short-Term Memory)ネットワークなどの機械学習技術は、シンボリック・ミュージック・ジェネレーション(SMG)において重要な役割を果たす。既存の文献は、LSTMとトランスフォーマーの違いとして、局所的なメロディック連続性をモデル化する能力と、グローバルな構造的コヒーレンスを維持する能力があることを示している。しかし、SMGの文脈におけるそれらの特性は体系的に研究されていない。本稿では,LSTMとSMGの変換器の詳細な比較分析を行い,Dutschlデータセット上の17の音質指標を用いて局所特性とグローバル特性を詳細に検討する。 LSTMネットワークは局所的なパターンを捉えるのに優れ、長距離依存を保たないのに対して、Transformersはグローバル構造を効果的にモデル化するが、不規則なフレーズを生成する傾向がある。そこで本研究では,トランスフォーマーエンコーダとLSTMデコーダを組み合わせたハイブリッドアーキテクチャを提案する。 Deutschlデータセット上の3つのアーキテクチャそれぞれから生成された1,000のメロディを評価した。その結果, ハイブリッド手法は, ベースラインよりも局所的・大域的連続性とコヒーレンス性が高いことがわかった。我々の研究は、これらのモデルの重要な特徴を強調し、それらの特性がどのように優れたモデルの設計に活用できるかを示す。また, アブレーション研究やヒトの知覚評価による実験も支援し, 統計的に支持し, 本研究の堅牢な検証を行った。

関連論文リスト

Benchmarking M-LTSF: Frequency and Noise-Based Evaluation of Multivariate Long Time Series Forecasting Models [24.354866692885466]
パラメータ化可能な合成データセットを生成するシミュレーションに基づく評価フレームワークを提案する。これらのコンポーネントは、未知のノイズのあいまいさを伴わずに、実世界の多変量時系列データをモデル化することを目的としている。このフレームワークは、制御および多種多様なシナリオ下でのM-LTSFモデルのきめ細かい体系的評価を可能にする。
論文参考訳（メタデータ） (2025-10-06T15:16:52Z)
TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文参考訳（メタデータ） (2025-04-14T05:44:11Z)
Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文参考訳（メタデータ） (2025-04-08T22:16:54Z)
On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。 LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文参考訳（メタデータ） (2025-01-24T15:34:50Z)
Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
論文参考訳（メタデータ） (2024-12-16T15:21:04Z)
Enhancing Automatic Modulation Recognition through Robust Global Feature Extraction [12.868218616042292]
変調信号は長時間の時間依存性を示す。人間の専門家は星座図のパターンを分析し、変調スキームを分類する。古典的な畳み込みベースのネットワークは、局所的な特徴を抽出することに長けているが、グローバルな関係を捉えるのに苦労している。
論文参考訳（メタデータ） (2024-01-02T06:31:24Z)
Demystify Transformers & Convolutions in Modern Image Deep Networks [80.16624587948368]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。様々なSTMが統合されたフレームワークに統合され、包括的な比較分析を行う。
論文参考訳（メタデータ） (2022-11-10T18:59:43Z)
Style-Hallucinated Dual Consistency Learning for Domain Generalized Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。 SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-04-06T02:49:06Z)
Learning Bounded Context-Free-Grammar via LSTM and the Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文参考訳（メタデータ） (2021-12-16T19:56:44Z)
TRANS-BLSTM: Transformer with Bidirectional LSTM for Language Understanding [18.526060699574142]
Bidirectional Representations from Transformers (BERT)は、最近、幅広いNLPタスクで最先端のパフォーマンスを達成した。本稿では,BLSTM層を各トランスブロックに統合したBLSTM(TRANS-BLSTM)を用いたTransformerというアーキテクチャを提案する。本研究では,Trans-BLSTMモデルがGLUEおよびSQuAD 1.1実験のBERTベースラインと比較して常に精度の向上につながることを示す。
論文参考訳（メタデータ） (2020-03-16T03:38:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。