論文の概要: SIEVE: Towards Verifiable Certification for Code-datasets
- arxiv url: http://arxiv.org/abs/2510.02166v1
- Date: Thu, 02 Oct 2025 16:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.205198
- Title: SIEVE: Towards Verifiable Certification for Code-datasets
- Title(参考訳): SIEVE: コードデータセットの検証証明を目指して
- Authors: Fatou Ndiaye Mbodji, El-hacen Diallo, Jordan Samhi, Kui Liu, Jacques Klein, Tegawendé F. Bissyande,
- Abstract要約: コードエージェントと経験的ソフトウェアエンジニアリングは、公開コードデータセットに依存しているが、これらのデータセットには検証可能な品質保証がない。
静的な'データセットカード'が通知するが、監査も統計的な保証も提供せず、データセットの品質の確認が難しい。
我々は、コミュニティ主導のフレームワークであるSIEVEを紹介します。
- 参考スコア(独自算出の注目度): 12.409402487591501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code agents and empirical software engineering rely on public code datasets, yet these datasets lack verifiable quality guarantees. Static 'dataset cards' inform, but they are neither auditable nor do they offer statistical guarantees, making it difficult to attest to dataset quality. Teams build isolated, ad-hoc cleaning pipelines. This fragments effort and raises cost. We present SIEVE, a community-driven framework. It turns per-property checks into Confidence Cards-machine-readable, verifiable certificates with anytime-valid statistical bounds. We outline a research plan to bring SIEVE to maturity, replacing narrative cards with anytime-verifiable certification. This shift is expected to lower quality-assurance costs and increase trust in code-datasets.
- Abstract(参考訳): コードエージェントと経験的ソフトウェアエンジニアリングは、公開コードデータセットに依存しているが、これらのデータセットには検証可能な品質保証がない。
静的な'データセットカード'が通知するが、監査も統計的な保証も提供せず、データセットの品質の確認が難しい。
チームは孤立したアドホックなクリーニングパイプラインを構築します。
この断片は努力を増し、コストを上昇させる。
コミュニティ主導のフレームワークであるSIEVEを紹介します。
個人情報ごとのチェックを、信頼できるカード読み取り可能、検証可能な証明書に、有意義な統計的境界を持つものにします。
我々は、SIEVEを成熟させるための研究計画を概説し、物語カードを常に検証可能な認証に置き換える。
このシフトは品質保証コストを低減し、コードデータセットの信頼を高めることが期待されている。
関連論文リスト
- Conformal Data Contamination Tests for Trading or Sharing of Data [28.020738753027043]
多くの機械学習タスクにおける品質データの量は、データ所有者がローカルに利用できるものに限られる。
本稿では,モデルパーソナライズに最も有用な外部データエージェントを識別する分散フリーな汚染対応データ共有フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-18T11:44:42Z) - CertDW: Towards Certified Dataset Ownership Verification via Conformal Prediction [48.82467166657901]
本稿では,最初の認証データセット透かし(CertDW)とCertDWベースの認証データセットオーナシップ検証手法を提案する。
共形予測に触発されて,主確率 (PP) と透かし頑健性 (WR) の2つの統計指標を導入する。
我々は、不審モデルのWR値が、透かしのないデータセットでトレーニングされた良性モデルのPP値を大幅に上回る場合に、PPとWRの間に証明可能な低い境界が存在することを証明した。
論文 参考訳(メタデータ) (2025-06-16T07:17:23Z) - Provably Unlearnable Data Examples [27.24152626809928]
原文(投稿日:2012/09/19)へのリンク 未許可のモデルでは、共有データを学習不能にするための努力が続けられている。
本稿では、学習不能データセットのいわゆる$(q, eta)$-Learnabilityを認証するためのメカニズムを提案する。
認証の低い$(q, eta)$-Learnabilityは、データセットに対するより堅牢で効果的な保護を示している。
論文 参考訳(メタデータ) (2024-05-06T09:48:47Z) - Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing [87.48628403354351]
機械学習の認証は、特定の条件下では、敵対的なサンプルが特定の範囲内でモデルを回避できないことを証明している。
セグメンテーションの一般的な認証方法は、平らな粒度のクラスを使い、モデルの不確実性による高い断続率をもたらす。
本稿では,複数レベルの階層内で画素を認証し,不安定なコンポーネントに対して粗いレベルに適応的に認証を緩和する,新しい,より実用的な設定を提案する。
論文 参考訳(メタデータ) (2024-02-13T11:59:43Z) - sec-certs: Examining the security certification practice for better vulnerability mitigation [0.2886273197127056]
致命的な脆弱性は保証レベルの高い認定製品で発見される。
このような脆弱性によって認定された製品が影響を受けるかを評価するのは、非構造化の認定関連データが大量にあるため、複雑である。
NISTのNational Vulnerability Databaseから、既存の認定製品に影響を与える脆弱性を学ぶために、教師なしのモデルをトレーニングしました。
論文 参考訳(メタデータ) (2023-11-29T12:55:16Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Learning Stability Certificates from Data [19.381365606166725]
我々は,軌道データのみから認証関数を学習するアルゴリズムを開発した。
このような一般化誤差境界を大域的安定性保証に変換する。
複雑な力学の証明を効率的に学習できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-08-13T14:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。