論文の概要: Data leakage in cross-modal retrieval training: A case study
- arxiv url: http://arxiv.org/abs/2302.12258v1
- Date: Thu, 23 Feb 2023 09:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:35:55.796644
- Title: Data leakage in cross-modal retrieval training: A case study
- Title(参考訳): クロスモーダル検索訓練におけるデータ漏洩 : 事例研究
- Authors: Benno Weck and Xavier Serra
- Abstract要約: 提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。
SoundDescには、トレーニングデータを評価データに漏洩させる複数の重複が含まれていることが判明した。
オンラインで利用可能なデータセットに対して、新たなトレーニング、検証、テストの分割を提案します。
- 参考スコア(独自算出の注目度): 16.18916188804986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent progress in text-based audio retrieval was largely propelled by
the release of suitable datasets. Since the manual creation of such datasets is
a laborious task, obtaining data from online resources can be a cheap solution
to create large-scale datasets. We study the recently proposed SoundDesc
benchmark dataset, which was automatically sourced from the BBC Sound Effects
web page. In our analysis, we find that SoundDesc contains several duplicates
that cause leakage of training data to the evaluation data. This data leakage
ultimately leads to overly optimistic retrieval performance estimates in
previous benchmarks. We propose new training, validation, and testing splits
for the dataset that we make available online. To avoid weak contamination of
the test data, we pool audio files that share similar recording setups. In our
experiments, we find that the new splits serve as a more challenging benchmark.
- Abstract(参考訳): テキストベースの音声検索の最近の進歩は、適切なデータセットのリリースによって大きく推進された。
このようなデータセットを手動で作成するのは大変な作業なので、オンラインリソースからデータを取得することは、大規模なデータセットを作成するための安価なソリューションになり得る。
提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。
本分析では,評価データへのトレーニングデータの漏洩を引き起こす複数の重複を含むことを見出した。
このデータ漏洩は、最終的に以前のベンチマークで過度に楽観的な検索性能評価につながる。
オンラインで利用可能なデータセットに対して,新たなトレーニング,バリデーション,テスト分割を提案する。
テストデータの弱い汚染を避けるため、同様の記録設定を共有するオーディオファイルをプールする。
私たちの実験では、新しい分割がより難しいベンチマークとなることが分かりました。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - RINAS: Training with Dataset Shuffling Can Be General and Fast [2.485503195398027]
RINASは、グローバルシャッフルデータセットをロードする際のパフォーマンスボトルネックに対処するデータローディングフレームワークである。
We implement RINAS under the PyTorch framework for common dataset library HuggingFace and TorchVision。
実験の結果,RINASは汎用言語モデルトレーニングと視覚モデルトレーニングのスループットを最大59%,視力モデルトレーニングは89%向上した。
論文 参考訳(メタデータ) (2023-12-04T21:50:08Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Addressing out-of-distribution label noise in webly-labelled data [8.625286650577134]
検索エンジンを用いたデータ収集とアノテーションは、完全に人間に注釈付けされたデータセットを生成するための単純な代替手段である。
ウェブクローリングは非常に時間がかかりますが、検索した画像のいくつかは必然的にノイズがあります。
Webから収集されたノイズの多いデータをトレーニングするための堅牢なアルゴリズムの設計は、重要な研究の観点である。
論文 参考訳(メタデータ) (2021-10-26T13:38:50Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。