論文の概要: Automatic Album Sequencing
- arxiv url: http://arxiv.org/abs/2411.07772v1
- Date: Tue, 12 Nov 2024 13:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:18.123276
- Title: Automatic Album Sequencing
- Title(参考訳): 自動アルバムシークエンシング
- Authors: Vincent Herrmann, Dylan R. Ashley, Jürgen Schmidhuber,
- Abstract要約: データ駆動型アプローチでは,コレクション中のアイテムの物語的本質を抽出することにより,独立したメディアの一般的なコレクションをシーケンスする。
このアプローチは、アルバムシークエンシングのテクニックを意味するが、技術的でない聴衆には広くアクセスできない。
ユーザフレンドリーな新しいWebベースのツールを導入し、より技術的でないオーディエンスが楽曲をアップロードし、このテクニックをワンクリックで実行し、その結果をきれいに視覚化する。
- 参考スコア(独自算出の注目度): 27.18369569347861
- License:
- Abstract: Album sequencing is a critical part of the album production process. Recently, a data-driven approach was proposed that sequences general collections of independent media by extracting the narrative essence of the items in the collections. While this approach implies an album sequencing technique, it is not widely accessible to a less technical audience, requiring advanced knowledge of machine learning techniques to use. To address this, we introduce a new user-friendly web-based tool that allows a less technical audience to upload music tracks, execute this technique in one click, and subsequently presents the result in a clean visualization to the user. To both increase the number of templates available to the user and address shortcomings of previous work, we also introduce a new direct transformer-based album sequencing method. We find that our more direct method outperforms a random baseline but does not reach the same performance as the narrative essence approach. Both methods are included in our web-based user interface, and this -- alongside a full copy of our implementation -- is publicly available at https://github.com/dylanashley/automatic-album-sequencing
- Abstract(参考訳): アルバムのシークエンシングは、アルバム制作プロセスの重要な部分である。
近年,データ駆動型アプローチが提案され,コレクション中のアイテムの物語的本質を抽出することで,独立したメディアの一般的なコレクションをシーケンスする。
このアプローチは、アルバムシークエンシングのテクニックを意味するが、より技術的でない聴衆には広くアクセスできず、使用する機械学習技術に関する高度な知識を必要としている。
そこで我々は,より技術的でない聴衆が楽曲をアップロードし,このテクニックをワンクリックで実行し,その結果をユーザにクリーンな視覚化で提示する,ユーザフレンドリーな新しいWebベースのツールを提案する。
ユーザが利用できるテンプレートの数を増やし、過去の作業の欠点に対処するために、新しいダイレクトトランスフォーマーベースのアルバムシークエンシング手法も導入する。
より直接的な手法は、ランダムなベースラインよりも優れるが、物語の本質的アプローチと同等のパフォーマンスに到達しないことがわかった。
どちらのメソッドもWebベースのユーザインターフェースに含まれており、実装の完全なコピーとともに、https://github.com/dylanashley/automatic-album-sequencingで公開されています。
関連論文リスト
- Exploring Tokenization Methods for Multitrack Sheet Music Generation [48.8206920811097]
本研究ではABC表記におけるマルチトラックシート音楽のトークン化について検討する。
計算効率と音楽性の両方の観点から、実験結果から、バーストリームパッチングが全体として最も優れていることが示されている。
論文 参考訳(メタデータ) (2024-10-23T06:19:48Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - JIST: Joint Image and Sequence Training for Sequential Visual Place Recognition [21.039399444257807]
視覚的場所認識は、視覚的手がかりに頼って、これまで訪れた場所を認識することを目的としており、SLAMとローカライゼーションのためのロボティクスアプリケーションで使用される。
マルチタスク学習フレームワークを用いて,大規模な未処理画像集合を利用する新しいJIST(Joint Image and Sequence Training Protocol)を提案する。
提案モデルでは,8倍の小さい記述子を用いて,より軽量なアーキテクチャで,さまざまな長さのシーケンスを処理し,より高速な動作を実現している。
論文 参考訳(メタデータ) (2024-03-28T19:11:26Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - Adversarial Auto-Augment with Label Preservation: A Representation
Learning Principle Guided Approach [95.74102207187545]
本研究では,事前自由な自律的データ拡張の目的が表現学習の原則から導出可能であることを示す。
そこで我々は,既存の手法にシームレスに最適化し,シームレスに統合できる目的に対して,実用的なサロゲートを提案する。
論文 参考訳(メタデータ) (2022-11-02T02:02:51Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Diverse Image Generation via Self-Conditioned GANs [56.91974064348137]
手動でアノテートされたクラスラベルを使わずに、クラス条件付きGANモデルを訓練する。
代わりに、我々のモデルは、識別器の特徴空間におけるクラスタリングから自動的に派生したラベルに条件付きである。
我々のクラスタリングステップは、自動的に多様なモードを発見し、それらをカバーするためにジェネレータを明示的に必要とします。
論文 参考訳(メタデータ) (2020-06-18T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。