論文の概要: Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling
- arxiv url: http://arxiv.org/abs/2602.19816v1
- Date: Mon, 23 Feb 2026 13:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.823339
- Title: Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling
- Title(参考訳): 深部構造音楽の残響:フルPieceシンボリック・ミュージック・モデリングのための予算付き繰り返し注意
- Authors: Yungang Yi,
- Abstract要約: 本稿では,フルピース・シンボリック・ミュージック・モデリングのための長文変換器であるDepth-Structured Music Recurrence (DSMR)を紹介する。
この再帰的フレームワークでは, 地平線配置が最適化, 最良チェックポイントパープレキシティ, 効率に与える影響について検討する。
我々の主なインスタンス化は2スケールのDSMRスケジュールで、長い履歴ウィンドウを下層に割り当て、残りの層に均一なショートウィンドウを割り当てます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context modeling is essential for symbolic music generation, since motif repetition and developmental variation can span thousands of musical events. However, practical composition and performance workflows frequently rely on resource-limited devices (e.g., electronic instruments and portable computers), making heavy memory and attention computation difficult to deploy. We introduce Depth-Structured Music Recurrence (DSMR), a recurrent long-context Transformer for full-piece symbolic music modeling that extends context beyond fixed-length excerpts via segment-level recurrence with detached cross-segment states, featuring a layer-wise memory-horizon schedule that budgets recurrent KV states across depth. DSMR is trained in a single left-to-right pass over each complete composition, akin to how a musician experiences it from beginning to end, while carrying recurrent cross-segment states forward. Within this recurrent framework, we systematically study how depth-wise horizon allocations affect optimization, best-checkpoint perplexity, and efficiency. By allocating different history-window lengths across layers while keeping the total recurrent-state budget fixed, DSMR creates depth-dependent temporal receptive fields within a recurrent attention stack without reducing compute depth. Our main instantiation is a two-scale DSMR schedule that allocates long history windows to lower layers and a uniform short window to the remaining layers. Experiments on the piano performance dataset MAESTRO demonstrate that two-scale DSMR provides a practical quality--efficiency recipe for full-length long-context symbolic music modeling with recurrent attention under limited computational resources.
- Abstract(参考訳): モチーフの反復と発達の変動は、何千もの音楽イベントにまたがる可能性があるため、シンボリック・ミュージック・ジェネレーションにはロングコンテキスト・モデリングが不可欠である。
しかし、実際の構成と性能のワークフローはリソース制限されたデバイス(電子楽器や携帯コンピュータなど)に依存しており、重メモリや注意計算の展開が困難である。
本稿では,Depth-Structured Music Recurrence(DSMR)について紹介する。Depth-Structured Music Recurrence(DSMR)は,完全ピースのシンボリック・ミュージック・モデリングのためのリカレント・コンバータである。
DSMRは、ミュージシャンが最初から最後まで経験するのと同じように、各作曲の左から右に1回のパスで訓練される。
この再帰的フレームワークでは、深さ方向の水平配置が最適化、最良チェックポイントパープレキシティ、効率にどのように影響するかを体系的に検討する。
DSMRは、各層に異なる履歴ウィンドウ長を割り当てると同時に、全体の再帰状態予算を固定することにより、計算深度を減少させることなく、再帰的注意スタック内に深さ依存性の時間受容場を生成する。
我々の主なインスタンス化は2スケールのDSMRスケジュールで、長い履歴ウィンドウを下層に割り当て、残りの層に均一なショートウィンドウを割り当てます。
ピアノ演奏データセットMAESTROの実験では、2スケールのDSMRが、限られた計算資源の下で繰り返し注意を払って、フル長長文のシンボリック・ミュージック・モデリングのための実用的なクオリティ・効率のレシピを提供することを示した。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Efficient Long-Sequence Diffusion Modeling for Symbolic Music Generation [5.290828305368797]
シンボリック・ミュージック・ジェネレーションは、階層的時間構造、長距離依存、きめ細かい局所的詳細を含む長いシーケンスを含む、困難なタスクである。
本研究では,効率的なグローバル構造構築と光局所改善を両立させるため,SMDIMという拡散戦略を提案する。
実験により、モデルが生成品質と計算効率の両方において、他の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-02-28T09:54:02Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Lethe: Layer- and Time-Adaptive KV Cache Pruning for Reasoning-Intensive LLM Serving [11.750209684686707]
大きな言語モデル(LLM)による生成的推論は、しばしば長い復号シーケンスを含む。
本稿では,動的KVキャッシュ管理フレームワークLetheを提案する。
Letheは様々なモデルやタスク間で効率と生成品質のバランスを良好に保ち、スループットを最大2.56倍に向上させる。
論文 参考訳(メタデータ) (2025-11-08T14:52:43Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation [4.101665207455494]
PerceiverS(セグメンテーション・アンド・スケール)は、長い構造化された表現力のある音楽を生成するために設計された新しいアーキテクチャである。
本手法は,長期的構造的依存関係と短期的表現的詳細を同時に学習することにより,記号的音楽生成を促進する。
提案したモデルは,Maestroデータセットを用いて評価され,コヒーレントで多様な音楽を生成する方法の改善が示されている。
論文 参考訳(メタデータ) (2024-11-13T03:14:10Z) - Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization [19.27890803128116]
自動マルチトラック音楽アレンジメントのための統合フレームワークを提案する。
中心となるのは、トークンレベルのアンタングルされたコンテンツとスタイルで動作するセグメントレベルの再構築目標である。
トラックワイズ・モデリングを支援するため,マルチトラック・シンボリック・ミュージックのための構造化トークン化手法であるREMI-zを導入する。
論文 参考訳(メタデータ) (2024-08-27T16:18:51Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Memory-Augmented Deep Unfolding Network for Compressive Sensing [7.123516761504439]
メモリ拡張Deep Unfolding Network (MADUN) は、切り捨てられた最適化手法をディープニューラルネットワークにマッピングするために提案されている。
我々はMADUNが既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-10-19T07:03:12Z) - Non-local Recurrent Regularization Networks for Multi-view Stereo [108.17325696835542]
深層多視点ステレオネットワークでは、正確な深さ推定を実現するためにコスト正規化が不可欠である。
NR2-Netと呼ばれるマルチビューステレオのための新しい非局所リカレント正規化ネットワークを提案する。
提案手法は,DTU,タンク,テンプルの双方のデータセットに対して,最先端の再構築結果を実現する。
論文 参考訳(メタデータ) (2021-10-13T01:43:54Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。