論文の概要: Sanity Checks for Agentic Data Science
- arxiv url: http://arxiv.org/abs/2604.11003v1
- Date: Mon, 13 Apr 2026 05:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.335842
- Title: Sanity Checks for Agentic Data Science
- Title(参考訳): エージェントデータサイエンスのための正当性チェック
- Authors: Zachary T. Rewolinski, Austin V. Zane, Hao Huang, Chandan Singh, Chenglong Wang, Jianfeng Gao, Bin Yu,
- Abstract要約: エージェントデータサイエンス(ADS)パイプラインは、能力と採用の両方で急速に成長している。
これらのシステムは、ユーザーが検出するのが困難である誤った楽観的な結論に達する可能性がある。
予測可能性-計算可能性-安定性フレームワークを基盤とした,2つの軽量な正当性チェックを提案する。
- 参考スコア(独自算出の注目度): 43.38296659030703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic data science (ADS) pipelines have grown rapidly in both capability and adoption, with systems such as OpenAI Codex now able to directly analyze datasets and produce answers to statistical questions. However, these systems can reach falsely optimistic conclusions that are difficult for users to detect. To address this, we propose a pair of lightweight sanity checks grounded in the Predictability-Computability-Stability (PCS) framework for veridical data science. These checks use reasonable perturbations to screen whether an agent can reliably distinguish signal from noise, acting as a falsifiability constraint that can expose affirmative conclusions as unsupported. Together, the two checks characterize the trustworthiness of an ADS output, e.g. whether it has found stable signal, is responding to noise, or is sensitive to incidental aspects of the input. We validate the approach on synthetic data with controlled signal-to-noise ratios, confirming that the sanity checks track ground-truth signal strength. We then demonstrate the checks on 11 real-world datasets using OpenAI Codex, characterizing the trustworthiness of each conclusion and finding that in 6 of the datasets an affirmative conclusion is not well-supported, even though a single ADS run may support one. We further analyze failure modes of ADS systems and find that ADS self-reported confidence is poorly calibrated to the empirical stability of its conclusions.
- Abstract(参考訳): エージェントデータサイエンス(ADS)パイプラインは、機能と採用の両方で急速に成長し、OpenAI Codexなどのシステムでは、データセットを直接分析し、統計的な問題に対する回答を生成できるようになった。
しかし、これらのシステムは、ユーザーが検出するのが困難である誤った楽観的な結論に達する可能性がある。
そこで本研究では,検証データ科学のためのPCS(Predictability-Computability-Stability)フレームワークを基盤とした,軽量な正当性チェックを提案する。
これらのチェックは合理的な摂動を用いて、エージェントが信号とノイズを確実に区別できるかどうかを確認する。
2つのチェックは、ADS出力の信頼性、例えば安定した信号を見つけたか、ノイズに反応しているか、入力の偶発的な側面に敏感であるかを特徴付ける。
本研究では,信号対雑音比を制御した合成データに対するアプローチの有効性を検証し,その正当性は地上信号の強度をチェックすることを確認する。
次に、OpenAI Codexを使用して11の現実世界のデータセットのチェックを実演し、各結論の信頼性を特徴付けるとともに、6つのデータセットにおいて、単一のADS実行が1つをサポートするとしても、肯定的な結論が十分にサポートされていないことを発見した。
さらに, ADSシステムの故障モードを分析し, ADS自己報告された信頼度が, 結論の実証的安定性に悪影響を及ぼすことを見出した。
関連論文リスト
- Learning to Pay Attention: Unsupervised Modeling of Attentive and Inattentive Respondents in Survey Data [0.14323566945483493]
注意点検などの従来の安全対策は、コストが高く、反応性があり、一貫性がないことが多い。
補完的な教師なしビューを用いた不注意検出のための統一型ラベルフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-02T22:11:51Z) - Decision-Aware Trust Signal Alignment for SOC Alert Triage [0.0]
本稿では,SOC警告トリアージの信頼信号対応方式を提案する。
このフレームワークは、調整済みの信頼性、軽量不確実性、そしてコストに敏感な決定しきい値をコヒーレントな決定支持層に組み合わせている。
信頼度が不一致な表示によって偽陰性が大幅に増幅されるのに対し、コスト重み付き損失は決定整合信頼信号を持つモデル間での桁違いに減少することを示す。
論文 参考訳(メタデータ) (2026-01-08T01:41:54Z) - IPAD: Inverse Prompt for AI Detection -- A Robust and Explainable LLM-Generated Text Detector [11.112793289424886]
大規模言語モデル (LLM) は、人間の書き起こしたテキストとLLM生成したテキストの区別を複雑にするテキスト生成において、人間レベルの流布を達成している。
既存の検出器は、オフ・オブ・ディストリビューション(OOD)データとアタックデータに弱いロバスト性を示す。
本稿では,入力テキストを生成可能な予測プロンプトを識別するPromptと,入力テキストが予測プロンプトと一致する確率を調べるDistinguisherからなる,新しいフレームワークであるIPADを提案する。
論文 参考訳(メタデータ) (2025-02-21T19:41:32Z) - D2SP: Dynamic Dual-Stage Purification Framework for Dual Noise Mitigation in Vision-based Affective Recognition [32.74206402632733]
ノイズは、論理的なラベル付けを損なう低品質なキャプチャや、アノテーションのバイアスによる誤ラベルに悩まされるインスタンスから生じます。
textbfSeeking textbfCertain data textbfIn extensive textbfUncertain data (SCIU)
このイニシアチブは、これらの不確実性のDFERデータセットを浄化することを目的としており、トレーニングプロセスでクリーンで検証されたデータのみが使用されることを保証する。
論文 参考訳(メタデータ) (2024-06-24T09:25:02Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。