論文の概要: On the de-duplication of the Lakh MIDI dataset
- arxiv url: http://arxiv.org/abs/2509.16662v1
- Date: Sat, 20 Sep 2025 12:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.911614
- Title: On the de-duplication of the Lakh MIDI dataset
- Title(参考訳): Lakh MIDIデータセットの非重複性について
- Authors: Eunjin Choi, Hyerin Kim, Jiwoo Ryu, Juhan Nam, Dasaem Jeong,
- Abstract要約: シンボリック・ミュージック・ドメインにおいて最も広く公開されているソースの一つであるLakh MIDIデータセット(LMD)に関するデータセット重複問題について検討した。
LMDのフィルタリストの3つの異なるバージョンを提案し、178,561ファイルのうち、少なくとも38,134のサンプルを最も保守的な設定でフィルタリングする。
- 参考スコア(独自算出の注目度): 19.748298436239818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A large-scale dataset is essential for training a well-generalized deep-learning model. Most such datasets are collected via scraping from various internet sources, inevitably introducing duplicated data. In the symbolic music domain, these duplicates often come from multiple user arrangements and metadata changes after simple editing. However, despite critical issues such as unreliable training evaluation from data leakage during random splitting, dataset duplication has not been extensively addressed in the MIR community. This study investigates the dataset duplication issues regarding Lakh MIDI Dataset (LMD), one of the largest publicly available sources in the symbolic music domain. To find and evaluate the best retrieval method for duplicated data, we employed the Clean MIDI subset of the LMD as a benchmark test set, in which different versions of the same songs are grouped together. We first evaluated rule-based approaches and previous symbolic music retrieval models for de-duplication and also investigated with a contrastive learning-based BERT model with various augmentations to find duplicate files. As a result, we propose three different versions of the filtered list of LMD, which filters out at least 38,134 samples in the most conservative settings among 178,561 files.
- Abstract(参考訳): 大規模データセットは、十分に一般化されたディープラーニングモデルのトレーニングに不可欠である。
このようなデータセットの多くは、様々なインターネットソースからのスクレイピングを通じて収集され、必然的に重複データを導入している。
シンボリック音楽領域では、これらの重複は単純な編集後に複数のユーザーアレンジメントとメタデータの変更によって生じることが多い。
しかし、ランダムスプリット中のデータ漏洩からの信頼性の低いトレーニング評価などの重要な問題にもかかわらず、データセット重複は、MIRコミュニティで広く扱われていない。
本研究では,シンボリック・ミュージック・ドメインにおいて最大規模の公開資料であるLakh MIDI Dataset (LMD) に関するデータセット重複問題について検討した。
重複したデータに対して最適な検索手法を探索し,評価するために,LMDのクリーンMIDIサブセットをベンチマークテストセットとして使用し,同じ曲の異なるバージョンをグループ化した。
提案手法は,まずルールベースアプローチと従来型の復号化のための記号的音楽検索モデルを評価し,重複ファイルの検索に様々な拡張を加えたコントラスト学習に基づくBERTモデルを用いて検討した。
その結果,178,561ファイルのうち,少なくとも38,134のサンプルをフィルタするLMDのフィルタリストの3つの異なるバージョンを提案する。
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - When do Generative Query and Document Expansions Fail? A Comprehensive
Study Across Methods, Retrievers, and Datasets [69.28733312110566]
LMに基づく拡張の最初の包括的解析を行う。
抽出器の性能と拡張による利得との間には強い負の相関関係があることが判明した。
より弱いモデルに拡張を使用するか、ターゲットデータセットがフォーマットのトレーニングコーパスと大きく異なる場合。
論文 参考訳(メタデータ) (2023-09-15T17:05:43Z) - Multifile Partitioning for Record Linkage and Duplicate Detection [0.0]
マルチファイルレコードリンクと重複検出の一般設定のためのベイズ的手法を提案する。
我々は、データ収集プロセスに関する事前情報を組み込むことができるパーティションのための構造化された事前提案のために、新しいパーティション表現を使用します。
また、分割の不確実な部分の未解決を許容する分割のベイズ推定を導出するために損失関数の族を導入する。
論文 参考訳(メタデータ) (2021-10-08T00:47:30Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - MusPy: A Toolkit for Symbolic Music Generation [32.01713268702699]
MusPyは、シンボリック音楽生成のためのオープンソースのPythonライブラリである。
本稿では,現在MusPyが支援している11のデータセットの統計的解析について述べる。
論文 参考訳(メタデータ) (2020-08-05T06:16:13Z) - Multitask learning for instrument activation aware music source
separation [83.30944624666839]
本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。
その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-03T02:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。