論文の概要: SIEVE: Towards Verifiable Certification for Code-datasets
- arxiv url: http://arxiv.org/abs/2510.02166v1
- Date: Thu, 02 Oct 2025 16:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.205198
- Title: SIEVE: Towards Verifiable Certification for Code-datasets
- Title(参考訳): SIEVE: コードデータセットの検証証明を目指して
- Authors: Fatou Ndiaye Mbodji, El-hacen Diallo, Jordan Samhi, Kui Liu, Jacques Klein, Tegawendé F. Bissyande,
- Abstract要約: コードエージェントと経験的ソフトウェアエンジニアリングは、公開コードデータセットに依存しているが、これらのデータセットには検証可能な品質保証がない。
静的な'データセットカード'が通知するが、監査も統計的な保証も提供せず、データセットの品質の確認が難しい。
我々は、コミュニティ主導のフレームワークであるSIEVEを紹介します。
- 参考スコア(独自算出の注目度): 12.409402487591501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code agents and empirical software engineering rely on public code datasets, yet these datasets lack verifiable quality guarantees. Static 'dataset cards' inform, but they are neither auditable nor do they offer statistical guarantees, making it difficult to attest to dataset quality. Teams build isolated, ad-hoc cleaning pipelines. This fragments effort and raises cost. We present SIEVE, a community-driven framework. It turns per-property checks into Confidence Cards-machine-readable, verifiable certificates with anytime-valid statistical bounds. We outline a research plan to bring SIEVE to maturity, replacing narrative cards with anytime-verifiable certification. This shift is expected to lower quality-assurance costs and increase trust in code-datasets.
- Abstract(参考訳): コードエージェントと経験的ソフトウェアエンジニアリングは、公開コードデータセットに依存しているが、これらのデータセットには検証可能な品質保証がない。
静的な'データセットカード'が通知するが、監査も統計的な保証も提供せず、データセットの品質の確認が難しい。
チームは孤立したアドホックなクリーニングパイプラインを構築します。
この断片は努力を増し、コストを上昇させる。
コミュニティ主導のフレームワークであるSIEVEを紹介します。
個人情報ごとのチェックを、信頼できるカード読み取り可能、検証可能な証明書に、有意義な統計的境界を持つものにします。
我々は、SIEVEを成熟させるための研究計画を概説し、物語カードを常に検証可能な認証に置き換える。
このシフトは品質保証コストを低減し、コードデータセットの信頼を高めることが期待されている。
関連論文リスト
- Document Data Matching for Blockchain-Supported Real Estate [2.9873162504735133]
本研究は,光学文字認識(OCR),自然言語処理(NLP),検証資格情報(VC)を統合し,文書抽出,検証,管理を自動化するシステムを提案する。
このアプローチは異質なドキュメントフォーマットをVCに標準化し、不整合を検出するために自動データマッチングを適用する。
提案フレームワークは、不動産取引の合理化、株主信頼の強化、スケーラブルでセキュアなデジタルプロセスの実現の可能性を示す。
論文 参考訳(メタデータ) (2025-12-30T20:30:48Z) - Sell Data to AI Algorithms Without Revealing It: Secure Data Valuation and Sharing via Homomorphic Encryption [10.12846924939717]
原資産を復号することなく外部データの有用性を定量化するための,プライバシ保護フレームワークであるTrustworthy Influence Protocol(TIP)を導入する。
均質暗号化と勾配に基づく影響関数を統合することで、当社のアプローチは、購入者の特定のAIモデルに対して、正確で盲目なデータポイントのスコア付けを可能にします。
医療と生成AIドメインにおける実証シミュレーションは、フレームワークの経済的ポテンシャルを検証する。
論文 参考訳(メタデータ) (2025-12-04T16:35:09Z) - Conformal Data Contamination Tests for Trading or Sharing of Data [28.020738753027043]
多くの機械学習タスクにおける品質データの量は、データ所有者がローカルに利用できるものに限られる。
本稿では,モデルパーソナライズに最も有用な外部データエージェントを識別する分散フリーな汚染対応データ共有フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-18T11:44:42Z) - ZKPROV: A Zero-Knowledge Approach to Dataset Provenance for Large Language Models [46.71493672772134]
LLM証明のゼロ知識証明を可能にする新しい暗号フレームワークであるZKPROVを紹介する。
モデルが信頼できるデータセット上でトレーニングされていることを、モデルやパラメータに関する機密情報を公開せずに確認することができる。
本手法は,学習段階の証明を回避しつつ,ゼロ知識証明を通じてトレーニングデータセットにトレーニングモデルを暗号的にバインドする。
論文 参考訳(メタデータ) (2025-06-26T00:49:02Z) - CertDW: Towards Certified Dataset Ownership Verification via Conformal Prediction [48.82467166657901]
本稿では,最初の認証データセット透かし(CertDW)とCertDWベースの認証データセットオーナシップ検証手法を提案する。
共形予測に触発されて,主確率 (PP) と透かし頑健性 (WR) の2つの統計指標を導入する。
我々は、不審モデルのWR値が、透かしのないデータセットでトレーニングされた良性モデルのPP値を大幅に上回る場合に、PPとWRの間に証明可能な低い境界が存在することを証明した。
論文 参考訳(メタデータ) (2025-06-16T07:17:23Z) - Provably Unlearnable Data Examples [27.24152626809928]
原文(投稿日:2012/09/19)へのリンク 未許可のモデルでは、共有データを学習不能にするための努力が続けられている。
本稿では、学習不能データセットのいわゆる$(q, eta)$-Learnabilityを認証するためのメカニズムを提案する。
認証の低い$(q, eta)$-Learnabilityは、データセットに対するより堅牢で効果的な保護を示している。
論文 参考訳(メタデータ) (2024-05-06T09:48:47Z) - Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing [87.48628403354351]
機械学習の認証は、特定の条件下では、敵対的なサンプルが特定の範囲内でモデルを回避できないことを証明している。
セグメンテーションの一般的な認証方法は、平らな粒度のクラスを使い、モデルの不確実性による高い断続率をもたらす。
本稿では,複数レベルの階層内で画素を認証し,不安定なコンポーネントに対して粗いレベルに適応的に認証を緩和する,新しい,より実用的な設定を提案する。
論文 参考訳(メタデータ) (2024-02-13T11:59:43Z) - How Does Unlabeled Data Provably Help Out-of-Distribution Detection? [63.41681272937562]
in-distribution (ID) とout-of-distribution (OOD) の両データの不均一性のため、未ラベルの in-the-wild データは非自明である。
本稿では,理論的保証と実証的有効性の両方を提供する新たな学習フレームワークであるSAL(Separate And Learn)を紹介する。
論文 参考訳(メタデータ) (2024-02-05T20:36:33Z) - sec-certs: Examining the security certification practice for better vulnerability mitigation [0.2886273197127056]
致命的な脆弱性は保証レベルの高い認定製品で発見される。
このような脆弱性によって認定された製品が影響を受けるかを評価するのは、非構造化の認定関連データが大量にあるため、複雑である。
NISTのNational Vulnerability Databaseから、既存の認定製品に影響を与える脆弱性を学ぶために、教師なしのモデルをトレーニングしました。
論文 参考訳(メタデータ) (2023-11-29T12:55:16Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Learning Stability Certificates from Data [19.381365606166725]
我々は,軌道データのみから認証関数を学習するアルゴリズムを開発した。
このような一般化誤差境界を大域的安定性保証に変換する。
複雑な力学の証明を効率的に学習できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-08-13T14:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。