論文の概要: Data Leakage in Visual Datasets
- arxiv url: http://arxiv.org/abs/2508.17416v1
- Date: Sun, 24 Aug 2025 15:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.516062
- Title: Data Leakage in Visual Datasets
- Title(参考訳): ビジュアルデータセットにおけるデータ漏洩
- Authors: Patrick Ramos, Ryan Ramos, Noa Garcia,
- Abstract要約: データ漏洩(Data leakage)とは、トレーニング中に見られた評価ベンチマークの画像を指す。
大規模なデータセットはしばしばインターネットからソースされ、多くのコンピュータビジョンベンチマークが公開されている。
- 参考スコア(独自算出の注目度): 7.340845393655051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze data leakage in visual datasets. Data leakage refers to images in evaluation benchmarks that have been seen during training, compromising fair model evaluation. Given that large-scale datasets are often sourced from the internet, where many computer vision benchmarks are publicly available, our efforts are focused into identifying and studying this phenomenon. We characterize visual leakage into different types according to its modality, coverage, and degree. By applying image retrieval techniques, we unequivocally show that all the analyzed datasets present some form of leakage, and that all types of leakage, from severe instances to more subtle cases, compromise the reliability of model evaluation in downstream tasks.
- Abstract(参考訳): 視覚的データセットにおけるデータの漏洩を分析する。
データ漏洩(Data leakage)とは、トレーニング中に見られた評価ベンチマークの画像を指し、公正なモデル評価を妥協する。
大規模なデータセットは、多くのコンピュータビジョンベンチマークが公開されているインターネットから得られることが多いので、当社の取り組みは、この現象を特定し研究することに集中しています。
視覚的リークは、そのモダリティ、カバレッジ、度合いに応じて異なるタイプに特徴付けられる。
画像検索技術を適用することで、分析したデータセットが何らかの形で漏洩し、重大ケースからより微妙なケースに至るまで、あらゆる種類の漏洩が下流タスクにおけるモデル評価の信頼性を損なうことを不当に示す。
関連論文リスト
- Ensemble-Based Deepfake Detection using State-of-the-Art Models with Robust Cross-Dataset Generalisation [0.0]
機械学習ベースのDeepfake検出モデルは、ベンチマークデータセットで印象的な結果を得た。
しかし、アウト・オブ・ディストリビューションデータで評価すると、その性能は著しく低下することが多い。
本研究では,ディープフェイク検出システムの一般化のためのアンサンブルに基づくアプローチについて検討する。
論文 参考訳(メタデータ) (2025-07-08T13:54:48Z) - Improving Image Data Leakage Detection in Automotive Software [2.622385361961154]
データ漏洩は、ML/DLモデルをトレーニングする前に、しばしば列車とテストセットにデータを分割するときに見過ごされる。
本研究では,産業パートナーのボルボ・カーズ(Volvo Cars)によるCirrusデータセットの計算実験を行った。
次に、この手法を、自動車分野において広く受け入れられているベンチマークデータセットであるKittiで評価する。
論文 参考訳(メタデータ) (2024-10-29T13:37:45Z) - CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - Intrinsic Self-Supervision for Data Quality Audits [35.69673085324971]
コンピュータビジョンにおけるベンチマークデータセットは、しばしば、オフトピック画像、ほぼ重複、ラベルエラーを含む。
本稿では,データクリーニングの課題を再考し,ランキング問題やスコアリング問題として定式化する。
文脈認識型自己教師型表現学習と距離に基づく指標の組み合わせは, 適応バイアスのない問題発見に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-26T15:57:04Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z) - GraspNet: A Large-Scale Clustered and Densely Annotated Dataset for
Object Grasping [49.777649953381676]
我々は,統合評価システムを用いた大規模グリップポーズ検出データセットに貢献する。
データセットには87,040枚のRGBD画像と3億7000万枚以上のグリップポーズが含まれている。
論文 参考訳(メタデータ) (2019-12-31T18:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。