論文の概要: SimClone: Detecting Tabular Data Clones using Value Similarity
- arxiv url: http://arxiv.org/abs/2407.12802v1
- Date: Mon, 24 Jun 2024 04:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:57:39.445634
- Title: SimClone: Detecting Tabular Data Clones using Value Similarity
- Title(参考訳): SimClone: 値類似性を用いたタブラルデータクローンの検出
- Authors: Xu Yang, Gopi Krishnan Rajbahadur, Dayi Lin, Shaowei Wang, Zhen Ming, Jiang,
- Abstract要約: データセット間のデータクローンの存在は、クローンを使用したデータセットを使用してAIソフトウェアを構築する際に問題を引き起こす可能性がある。
構造情報に依存しない表形式のデータセットにおけるデータクローン検出のためのSimCloneと呼ばれる新しい手法を提案する。
以上の結果から,我々のSimCloneは,F1スコアとAUCの両面で,最先端の手法よりも20%高い性能を示した。
- 参考スコア(独自算出の注目度): 37.85935189975307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data clones are defined as multiple copies of the same data among datasets. Presence of data clones between datasets can cause issues such as difficulties in managing data assets and data license violations when using datasets with clones to build AI software. However, detecting data clones is not trivial. Majority of the prior studies in this area rely on structural information to detect data clones (e.g., font size, column header). However, tabular datasets used to build AI software are typically stored without any structural information. In this paper, we propose a novel method called SimClone for data clone detection in tabular datasets without relying on structural information. SimClone method utilizes value similarities for data clone detection. We also propose a visualization approach as a part of our SimClone method to help locate the exact position of the cloned data between a dataset pair. Our results show that our SimClone outperforms the current state-of-the-art method by at least 20\% in terms of both F1-score and AUC. In addition, SimClone's visualization component helps identify the exact location of the data clone in a dataset with a Precision@10 value of 0.80 in the top 20 true positive predictions.
- Abstract(参考訳): データクローンは、データセット間で同じデータの複数のコピーとして定義される。
データセット間のデータクローンの存在は、データアセットの管理の困難や、クローンとデータセットを使用してAIソフトウェアを構築する際のデータライセンス違反などの問題を引き起こす可能性がある。
しかし、データクローンの検出は簡単ではない。
この領域における先行研究の大部分は、データクローン(例えば、フォントサイズ、カラムヘッダ)を検出する構造情報に依存している。
しかし、AIソフトウェアを構築するのに使用される表データセットは通常、構造的な情報なしで保存される。
本稿では,構造情報に頼らずに表層データセットにおけるデータクローン検出を行うSimCloneという手法を提案する。
SimClone法はデータクローン検出に値類似性を利用する。
また,SimClone法の一部として,データセット間のクローンデータの正確な位置を特定するための可視化手法を提案する。
以上の結果から,我々のSimCloneは,F1スコアとAUCの両方で,最先端の手法よりも少なくとも20倍高い性能を示した。
さらに、SimCloneの視覚化コンポーネントは、データセット内のデータクローンの正確な位置を特定するのに役立つ。
関連論文リスト
- Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - You Only Condense Once: Two Rules for Pruning Condensed Datasets [41.92794134275854]
You Only Condense Once (YOCO)は、2つの恥ずかしいほど単純なデータセットプルーニングルールで、より小さなコンデンスデータセットを生成する。
実験では、ConvNet、ResNet、DenseNetなどのネットワーク上で、我々の発見を検証した。
論文 参考訳(メタデータ) (2023-10-21T14:05:58Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - Diffusion Dataset Generation: Towards Closing the Sim2Real Gap for
Pedestrian Detection [0.11470070927586014]
本稿では,歩行者検出作業において,シミュリアルなギャップを埋めるための新しい合成データ生成法を提案する。
提案手法は拡散型アーキテクチャを用いて実世界の分布を学習し,一度学習するとデータセットを生成する。
本研究では,実世界データにおける歩行者検出モデルにおいて,生成データとシミュレーションデータの組み合わせによるトレーニングにより,平均精度が27.3%向上することを示す。
論文 参考訳(メタデータ) (2023-05-16T12:33:51Z) - Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows [0.0]
データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。
データセットの小さなサブセットのみを使用して確率マップを構築する場合、レアデータポイントの確率を正確に推定するために反復法が用いられる。
提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。
論文 参考訳(メタデータ) (2021-12-28T20:06:28Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。
我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文 参考訳(メタデータ) (2020-08-11T17:54:20Z) - MSC: A Dataset for Macro-Management in StarCraft II [52.52008929278214]
プラットフォームSC2LEに基づいた新しいマクロ管理データセットをリリースする。
MSCは、よく設計された特徴ベクトル、事前定義されたハイレベルアクション、および各マッチの最終結果からなる。
データセットの他に,グローバルな状態評価とビルド順序予測のためのベースラインモデルと初期ベースライン結果を提案する。
論文 参考訳(メタデータ) (2017-10-09T14:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。