論文の概要: Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling
- arxiv url: http://arxiv.org/abs/2602.19816v2
- Date: Mon, 02 Mar 2026 09:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 15:39:03.813261
- Title: Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling
- Title(参考訳): 深部構造音楽の残響:フルPieceシンボリック・ミュージック・モデリングのための予算付き繰り返し注意
- Authors: Yungang Yi, Weihua Li, Matthew Kuo, Catherine Shi, Quan Bai,
- Abstract要約: Depth-Structured Music Recurrence (DSMR) は、完全な作曲から終わりまで学習する訓練時間設計である。
我々の主要なインスタンスである2スケールのDSMRは、低層に長い履歴ウィンドウを割り当て、残りの層に一様短いウィンドウを割り当てます。
MAESTROのピアノパフォーマンスデータセットでは、2スケールのDSMRはパープレキシティ(5.96対5.98)でフルメモリのリカレント参照と一致し、GPUメモリは約59%削減され、スループットは約36%向上した。
- 参考スコア(独自算出の注目度): 3.82316323394692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context modeling is essential for symbolic music generation, since motif repetition and developmental variation can span thousands of musical events, yet practical workflows frequently rely on resource-limited hardware. We introduce Depth-Structured Music Recurrence (DSMR), a training-time design that learns from complete compositions end to end by streaming each piece left-to-right with stateful recurrent attention and distributing layer-wise memory horizons under a fixed recurrent-state budget. Our main instantiation, two-scale DSMR, assigns long history windows to lower layers and a uniform short window to the remaining layers. On the MAESTRO piano performance dataset, two-scale DSMR matches a full-memory recurrent reference in perplexity (5.96 vs. 5.98) while using approximately 59% less GPU memory and achieving roughly 36% higher throughput. Variant analyses further show strong layer substitutability under binary-horizon schedules: performance depends primarily on total allocated memory rather than which layers carry it.
- Abstract(参考訳): モチーフの反復と発達の変動は何千もの音楽イベントにまたがる可能性があるが、実用的なワークフローはリソース限定のハードウェアにしばしば依存するため、シンボリック・ミュージック・ジェネレーションにはロングコンテキスト・モデリングが不可欠である。
本稿では,各楽曲を左から右にストリーミングし,固定された再帰状態予算の下で階層的メモリ水平線を分散することにより,完全合成から終端まで学習する訓練時間設計であるDepth-Structured Music Recurrence(DSMR)を紹介する。
我々の主要なインスタンスである2スケールのDSMRは、低層に長い履歴ウィンドウを割り当て、残りの層に一様短いウィンドウを割り当てます。
MAESTROのピアノパフォーマンスデータセットでは、2スケールのDSMRはパープレキシティ(5.96対5.98)でフルメモリのリカレント参照と一致し、GPUメモリは約59%削減され、スループットは約36%向上した。
変数分析はさらに、バイナリ・水平スケジュール下での強い層置換性を示している: パフォーマンスは、どの層がそれを運ぶかではなく、割り当てられたメモリ全体に依存する。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Efficient Long-Sequence Diffusion Modeling for Symbolic Music Generation [5.290828305368797]
シンボリック・ミュージック・ジェネレーションは、階層的時間構造、長距離依存、きめ細かい局所的詳細を含む長いシーケンスを含む、困難なタスクである。
本研究では,効率的なグローバル構造構築と光局所改善を両立させるため,SMDIMという拡散戦略を提案する。
実験により、モデルが生成品質と計算効率の両方において、他の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-02-28T09:54:02Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Lethe: Layer- and Time-Adaptive KV Cache Pruning for Reasoning-Intensive LLM Serving [11.750209684686707]
大きな言語モデル(LLM)による生成的推論は、しばしば長い復号シーケンスを含む。
本稿では,動的KVキャッシュ管理フレームワークLetheを提案する。
Letheは様々なモデルやタスク間で効率と生成品質のバランスを良好に保ち、スループットを最大2.56倍に向上させる。
論文 参考訳(メタデータ) (2025-11-08T14:52:43Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation [4.101665207455494]
PerceiverS(セグメンテーション・アンド・スケール)は、長い構造化された表現力のある音楽を生成するために設計された新しいアーキテクチャである。
本手法は,長期的構造的依存関係と短期的表現的詳細を同時に学習することにより,記号的音楽生成を促進する。
提案したモデルは,Maestroデータセットを用いて評価され,コヒーレントで多様な音楽を生成する方法の改善が示されている。
論文 参考訳(メタデータ) (2024-11-13T03:14:10Z) - Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization [19.27890803128116]
自動マルチトラック音楽アレンジメントのための統合フレームワークを提案する。
中心となるのは、トークンレベルのアンタングルされたコンテンツとスタイルで動作するセグメントレベルの再構築目標である。
トラックワイズ・モデリングを支援するため,マルチトラック・シンボリック・ミュージックのための構造化トークン化手法であるREMI-zを導入する。
論文 参考訳(メタデータ) (2024-08-27T16:18:51Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Memory-Augmented Deep Unfolding Network for Compressive Sensing [7.123516761504439]
メモリ拡張Deep Unfolding Network (MADUN) は、切り捨てられた最適化手法をディープニューラルネットワークにマッピングするために提案されている。
我々はMADUNが既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-10-19T07:03:12Z) - Non-local Recurrent Regularization Networks for Multi-view Stereo [108.17325696835542]
深層多視点ステレオネットワークでは、正確な深さ推定を実現するためにコスト正規化が不可欠である。
NR2-Netと呼ばれるマルチビューステレオのための新しい非局所リカレント正規化ネットワークを提案する。
提案手法は,DTU,タンク,テンプルの双方のデータセットに対して,最先端の再構築結果を実現する。
論文 参考訳(メタデータ) (2021-10-13T01:43:54Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。