論文の概要: TheGlueNote: Learned Representations for Robust and Flexible Note Alignment
- arxiv url: http://arxiv.org/abs/2408.04309v1
- Date: Thu, 8 Aug 2024 08:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:08:12.655976
- Title: TheGlueNote: Learned Representations for Robust and Flexible Note Alignment
- Title(参考訳): TheGlueNote:ロバストでフレキシブルなノートアライメントのための学習された表現
- Authors: Silvan David Peter, Gerhard Widmer,
- Abstract要約: 変換器エンコーダネットワークであるTheGlueNoteが,2つの512音列のペア音符類似度を予測する方法を示す。
我々のアプローチは、ノートアライメントの正確さの観点から、最先端の手法と同等に動作し、バージョンミスマッチに対してかなり堅牢であり、MIDIファイルの任意のペアで直接動作する。
- 参考スコア(独自算出の注目度): 3.997809845676912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Note alignment refers to the task of matching individual notes of two versions of the same symbolically encoded piece. Methods addressing this task commonly rely on sequence alignment algorithms such as Hidden Markov Models or Dynamic Time Warping (DTW) applied directly to note or onset sequences. While successful in many cases, such methods struggle with large mismatches between the versions. In this work, we learn note-wise representations from data augmented with various complex mismatch cases, e.g. repeats, skips, block insertions, and long trills. At the heart of our approach lies a transformer encoder network - TheGlueNote - which predicts pairwise note similarities for two 512 note subsequences. We postprocess the predicted similarities using flavors of weightedDTW and pitch-separated onsetDTW to retrieve note matches for two sequences of arbitrary length. Our approach performs on par with the state of the art in terms of note alignment accuracy, is considerably more robust to version mismatches, and works directly on any pair of MIDI files.
- Abstract(参考訳): ノートアライメント(英: Noteアライメント)とは、同じ記号で符号化された2つのバージョンの個々の音符をマッチングするタスクである。
このタスクに対処する方法は、通常、ノートやオンセットシーケンスに直接適用される隠れマルコフモデルや動的時間ウォーピング(DTW)のようなシーケンスアライメントアルゴリズムに依存する。
多くの場合は成功したが、このような手法はバージョン間の大きなミスマッチに悩まされる。
本研究では,様々な複雑なミスマッチ,例えばリピート,スキップ,ブロック挿入,長いトリルを付加したデータからノートワイズ表現を学習する。
このアプローチの中心には、トランスフォーマーエンコーダネットワークであるTheGlueNoteがあります。
重み付きDTWとピッチ分離したonsetDTWのフレーバーを用いて予測類似性を後処理し,任意の長さの2列の音符一致を検索する。
我々の手法は、ノートアライメントの正確さの観点から最先端の手法と同等に動作し、バージョンミスマッチに対してかなり堅牢であり、MIDIファイルの任意のペアで直接動作する。
関連論文リスト
- PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Perception and Semantic Aware Regularization for Sequential Confidence
Calibration [12.265757315192497]
本稿では,パーセプションとセマンティックなシーケンス正規化フレームワークを提案する。
意味的文脈に依存しない認識と言語モデルを導入し、高い知覚的類似性と意味的相関性を持つ類似のシーケンスを取得する。
シーンテキストや音声認識など,標準シーケンス認識タスクの実験により,本手法が新たな最先端の結果を設定できることが実証された。
論文 参考訳(メタデータ) (2023-05-31T02:16:29Z) - A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Drop-DTW: Aligning Common Signal Between Sequences While Dropping
Outliers [33.174893836302005]
そこで本研究では,一致から外れ値要素を自動的に削除しながら,シーケンス間の共通信号を整列する新しいアルゴリズムDrop-DTWを提案する。
実験の結果,Drop-DTWはシーケンス検索に頑健な類似性尺度であり,多様なアプリケーションに対するトレーニング損失としての有効性を示した。
論文 参考訳(メタデータ) (2021-08-26T18:52:35Z) - CopyNext: Explicit Span Copying and Alignment in Sequence to Sequence
Models [31.832217465573503]
明示的なトークンレベルのコピー操作を持つモデルを示し、それを全スパンのコピーに拡張する。
我々のモデルは入力と出力のスパン間のハードアライメントを提供し、情報抽出のような非伝統的なセq2seqの応用を可能にする。
論文 参考訳(メタデータ) (2020-10-28T22:45:16Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - Semantic Label Smoothing for Sequence to Sequence Problems [54.758974840974425]
そこで本研究では,対象シーケンスとn-gramの重なり合いが十分である,エンハンウェル上のスムーズな関連配列を生成する手法を提案する。
提案手法は, 異なるデータセット上での最先端技術よりも一貫した, 顕著な改善を示す。
論文 参考訳(メタデータ) (2020-10-15T00:31:15Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z) - Hard Non-Monotonic Attention for Character-Level Transduction [65.17388794270694]
2つの弦間の多くの非単調なアライメントを余剰化するための厳密な指数時間アルゴリズムを導入する。
ソフト・モノトニック・アテンションとハード・ノン・モノトニック・アテンションを実験的に比較したところ、正確なアルゴリズムは近似よりも性能を著しく改善し、ソフト・アテンションよりも優れていた。
論文 参考訳(メタデータ) (2018-08-29T20:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。