論文の概要: Data leakage in cross-modal retrieval training: A case study
- arxiv url: http://arxiv.org/abs/2302.12258v1
- Date: Thu, 23 Feb 2023 09:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:35:55.796644
- Title: Data leakage in cross-modal retrieval training: A case study
- Title(参考訳): クロスモーダル検索訓練におけるデータ漏洩 : 事例研究
- Authors: Benno Weck and Xavier Serra
- Abstract要約: 提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。
SoundDescには、トレーニングデータを評価データに漏洩させる複数の重複が含まれていることが判明した。
オンラインで利用可能なデータセットに対して、新たなトレーニング、検証、テストの分割を提案します。
- 参考スコア(独自算出の注目度): 16.18916188804986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent progress in text-based audio retrieval was largely propelled by
the release of suitable datasets. Since the manual creation of such datasets is
a laborious task, obtaining data from online resources can be a cheap solution
to create large-scale datasets. We study the recently proposed SoundDesc
benchmark dataset, which was automatically sourced from the BBC Sound Effects
web page. In our analysis, we find that SoundDesc contains several duplicates
that cause leakage of training data to the evaluation data. This data leakage
ultimately leads to overly optimistic retrieval performance estimates in
previous benchmarks. We propose new training, validation, and testing splits
for the dataset that we make available online. To avoid weak contamination of
the test data, we pool audio files that share similar recording setups. In our
experiments, we find that the new splits serve as a more challenging benchmark.
- Abstract(参考訳): テキストベースの音声検索の最近の進歩は、適切なデータセットのリリースによって大きく推進された。
このようなデータセットを手動で作成するのは大変な作業なので、オンラインリソースからデータを取得することは、大規模なデータセットを作成するための安価なソリューションになり得る。
提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。
本分析では,評価データへのトレーニングデータの漏洩を引き起こす複数の重複を含むことを見出した。
このデータ漏洩は、最終的に以前のベンチマークで過度に楽観的な検索性能評価につながる。
オンラインで利用可能なデータセットに対して,新たなトレーニング,バリデーション,テスト分割を提案する。
テストデータの弱い汚染を避けるため、同様の記録設定を共有するオーディオファイルをプールする。
私たちの実験では、新しい分割がより難しいベンチマークとなることが分かりました。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
8つのベンチマークで1億6000万のパラメータスケールで事前トレーニングを行う場合,提案手法は各ベンチマークにおいてDSIRよりも優れる。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Addressing out-of-distribution label noise in webly-labelled data [8.625286650577134]
検索エンジンを用いたデータ収集とアノテーションは、完全に人間に注釈付けされたデータセットを生成するための単純な代替手段である。
ウェブクローリングは非常に時間がかかりますが、検索した画像のいくつかは必然的にノイズがあります。
Webから収集されたノイズの多いデータをトレーニングするための堅牢なアルゴリズムの設計は、重要な研究の観点である。
論文 参考訳(メタデータ) (2021-10-26T13:38:50Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。