Fugu-MT 論文翻訳(概要): SimClone: Detecting Tabular Data Clones using Value Similarity

論文の概要: SimClone: Detecting Tabular Data Clones using Value Similarity

arxiv url: http://arxiv.org/abs/2407.12802v1
Date: Mon, 24 Jun 2024 04:16:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 08:57:39.445634
Title: SimClone: Detecting Tabular Data Clones using Value Similarity
Title（参考訳）: SimClone: 値類似性を用いたタブラルデータクローンの検出
Authors: Xu Yang, Gopi Krishnan Rajbahadur, Dayi Lin, Shaowei Wang, Zhen Ming, Jiang,
Abstract要約: データセット間のデータクローンの存在は、クローンを使用したデータセットを使用してAIソフトウェアを構築する際に問題を引き起こす可能性がある。構造情報に依存しない表形式のデータセットにおけるデータクローン検出のためのSimCloneと呼ばれる新しい手法を提案する。以上の結果から,我々のSimCloneは,F1スコアとAUCの両面で,最先端の手法よりも20%高い性能を示した。
参考スコア（独自算出の注目度）: 37.85935189975307
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data clones are defined as multiple copies of the same data among datasets. Presence of data clones between datasets can cause issues such as difficulties in managing data assets and data license violations when using datasets with clones to build AI software. However, detecting data clones is not trivial. Majority of the prior studies in this area rely on structural information to detect data clones (e.g., font size, column header). However, tabular datasets used to build AI software are typically stored without any structural information. In this paper, we propose a novel method called SimClone for data clone detection in tabular datasets without relying on structural information. SimClone method utilizes value similarities for data clone detection. We also propose a visualization approach as a part of our SimClone method to help locate the exact position of the cloned data between a dataset pair. Our results show that our SimClone outperforms the current state-of-the-art method by at least 20\% in terms of both F1-score and AUC. In addition, SimClone's visualization component helps identify the exact location of the data clone in a dataset with a Precision@10 value of 0.80 in the top 20 true positive predictions.
Abstract（参考訳）: データクローンは、データセット間で同じデータの複数のコピーとして定義される。データセット間のデータクローンの存在は、データアセットの管理の困難や、クローンとデータセットを使用してAIソフトウェアを構築する際のデータライセンス違反などの問題を引き起こす可能性がある。しかし、データクローンの検出は簡単ではない。この領域における先行研究の大部分は、データクローン(例えば、フォントサイズ、カラムヘッダ)を検出する構造情報に依存している。しかし、AIソフトウェアを構築するのに使用される表データセットは通常、構造的な情報なしで保存される。本稿では,構造情報に頼らずに表層データセットにおけるデータクローン検出を行うSimCloneという手法を提案する。 SimClone法はデータクローン検出に値類似性を利用する。また,SimClone法の一部として,データセット間のクローンデータの正確な位置を特定するための可視化手法を提案する。以上の結果から,我々のSimCloneは,F1スコアとAUCの両方で,最先端の手法よりも少なくとも20倍高い性能を示した。さらに、SimCloneの視覚化コンポーネントは、データセット内のデータクローンの正確な位置を特定するのに役立つ。

関連論文リスト

Synthesizing Realistic Test Data without Breaking Privacy [3.975269455219312]
本報告では, 従来と同一の統計特性を持つ合成試験データセットの実現可能性について検討する。我々は、入力仕様からテストデータを生成するために、テストジェネレータ(ファザ)を使用し、元のデータによって設定された制約を保存する。サンプルを進化させ、識別器で「良いサンプル」を決定することで、同じ統計分布に従うプライバシー保護データを生成することができる。
論文参考訳（メタデータ） (2026-02-05T16:22:01Z)
How the Misuse of a Dataset Harmed Semantic Clone Detection [0.9361474110798144]
本稿では,BigCloneBenchが意味的コードの類似性を学習したり評価したりする上で,基礎的真理として用いることが問題であることを示す。 BigCloneBenchをデータセットとして使用する179の論文の文献レビューで、BigCloneBenchを使用してセマンティッククローン検出を評価する139の論文を発見した。 BigCloneBenchの使用は、Type-1、Type-2、Type-3クローンの構文的またはテキスト的クローン検出を評価する目的のために有効である、と強調する。
論文参考訳（メタデータ） (2025-05-07T10:52:28Z)
On the Use of Deep Learning Models for Semantic Clone Detection [4.796947520072581]
既存のベンチマークデータセットを利用した5つの最先端クローン検出モデルに対する多段階評価手法を提案する。具体的には,BigCloneBench,SemanticCloneBench,GPTCloneBenchの3つの高性能単一言語モデル(ASTNN,GMN,CodeBERT)について検討する。単一言語モデルはBigCloneBenchのF1スコアが高いが、SemanticCloneBenchのパフォーマンスは20%まで異なる。興味深いことに、クロス言語モデル(C4)は他のモデルよりもSemanticCloneBenchの方が優れたパフォーマンス(約7%)を示している。
論文参考訳（メタデータ） (2024-12-19T11:15:02Z)
Masked adversarial neural network for cell type deconvolution in spatial transcriptomics [5.1141169336435945]
実STデータと、cRNA-seqデータから生成されたシミュレーションSTデータとを整合させるMasked Adversarial Neural Network (MACD)を提案する。シミュレーションされた32のデータセットと2つの実データセット上でセル型デコンボリューションを行う際の精度を示す。
論文参考訳（メタデータ） (2024-08-09T13:46:28Z)
Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文参考訳（メタデータ） (2024-04-10T17:27:54Z)
You Only Condense Once: Two Rules for Pruning Condensed Datasets [41.92794134275854]
You Only Condense Once (YOCO)は、2つの恥ずかしいほど単純なデータセットプルーニングルールで、より小さなコンデンスデータセットを生成する。実験では、ConvNet、ResNet、DenseNetなどのネットワーク上で、我々の発見を検証した。
論文参考訳（メタデータ） (2023-10-21T14:05:58Z)
Replication: Contrastive Learning and Data Augmentation in Traffic Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文参考訳（メタデータ） (2023-09-18T12:55:09Z)
Diffusion Dataset Generation: Towards Closing the Sim2Real Gap for Pedestrian Detection [0.11470070927586014]
本稿では,歩行者検出作業において,シミュリアルなギャップを埋めるための新しい合成データ生成法を提案する。提案手法は拡散型アーキテクチャを用いて実世界の分布を学習し,一度学習するとデータセットを生成する。本研究では,実世界データにおける歩行者検出モデルにおいて,生成データとシミュレーションデータの組み合わせによるトレーニングにより,平均精度が27.3%向上することを示す。
論文参考訳（メタデータ） (2023-05-16T12:33:51Z)
Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows [0.0]
データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。データセットの小さなサブセットのみを使用して確率マップを構築する場合、レアデータポイントの確率を正確に推定するために反復法が用いられる。提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。
論文参考訳（メタデータ） (2021-12-28T20:06:28Z)
Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文参考訳（メタデータ） (2020-12-29T04:08:38Z)
AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文参考訳（メタデータ） (2020-08-16T11:36:11Z)
Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文参考訳（メタデータ） (2020-08-11T17:54:20Z)
MSC: A Dataset for Macro-Management in StarCraft II [52.52008929278214]
プラットフォームSC2LEに基づいた新しいマクロ管理データセットをリリースする。 MSCは、よく設計された特徴ベクトル、事前定義されたハイレベルアクション、および各マッチの最終結果からなる。データセットの他に,グローバルな状態評価とビルド順序予測のためのベースラインモデルと初期ベースライン結果を提案する。
論文参考訳（メタデータ） (2017-10-09T14:59:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。