論文の概要: Ambig-DS: A Benchmark for Task-Framing Ambiguity in Data-Science Agents
- arxiv url: http://arxiv.org/abs/2605.09698v1
- Date: Sun, 10 May 2026 18:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.378067
- Title: Ambig-DS: A Benchmark for Task-Framing Ambiguity in Data-Science Agents
- Title(参考訳): Ambig-DS:データサイエンスエージェントにおけるタスクフレーミングのあいまいさのベンチマーク
- Authors: Josefa Lia Stoisser, Marc Boubnovski Martell, Sidsel Boldsen, Kaspar Märtens, Robert Kitchen,
- Abstract要約: 既存のベンチマークでは、エージェントがタスクが不明確かどうかを無視して、パイプラインが動作しているかどうかをスコア付けしている。
本稿では,予測対象曖昧さと評価対象曖昧さの2つの診断スイートであるAmbig-DSを紹介する。
すべてのタスクに対して、元の完全に指定されたバージョンと、コントロールされた編集によって生成されるあいまいなバリエーションをペアにします。
- 参考スコア(独自算出の注目度): 2.3488056916440856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As data-science agents shift from co-pilots to auto-pilots, silent misframing becomes a critical failure mode. Agents quietly commit to plausible but unintended task framings, producing clean, executable artifacts that hide their incorrect assessment of the task. Existing benchmarks score whether the pipeline runs, ignoring whether the agent recognized the task was underspecified. We introduce Ambig-DS, two diagnostic suites: one for prediction-target ambiguity (Ambig-DS-Target, 51 tasks built on DSBench, a tabular modeling benchmark) and one for evaluation-objective ambiguity (Ambig-DS-Objective, 61 tasks built on MLE-bench, a Kaggle-style ML competition benchmark), constructed so that scoring uses each source benchmark's original evaluator. For every task we pair the original, fully specified version with an ambiguous variant produced by controlled edits; a human-and-LLM verification pipeline confirms each variant admits multiple plausible interpretations with decision-relevant consequences. The suites are analyzed independently and ambiguity lowers performance in both. Across five agents spanning efficient to frontier-class models, we find in our controlled diagnostic setting: (i) failures are silent commitments: wrong-target submissions on Target, wrong-metric or non-committal baseline submissions on Objective, rather than execution errors; (ii) allowing the agent to ask one clarifying question recovers much of the loss under idealized conditions, suggesting missing framing information drives a substantial part of the observed degradation; but (iii) agents cannot reliably tell when to use it: permissive prompts induce over-asking on clear tasks, while conservative prompts induce silent defaulting on ambiguous ones. Recognizing target and objective underspecification, not pipeline execution, is the bottleneck missing from standard DS-agent evaluations.
- Abstract(参考訳): データサイエンスエージェントがコパイロットから自動パイロットへと移行するにつれ、サイレント・ミスフレーミングは重要な障害モードとなる。
エージェントは、もっともらしいが意図しないタスクフレーミングに静かにコミットし、タスクの誤った評価を隠す、クリーンで実行可能なアーティファクトを生成します。
既存のベンチマークでは、エージェントがタスクが不明確かどうかを無視して、パイプラインが動作しているかどうかをスコア付けしている。
本稿では、予測対象曖昧性(Ambig-DS-Target,51タスクをDSBench上に構築)と評価対象曖昧性(Ambig-DS-Objective,61タスクをKaggleスタイルのMLコンペティションベンチマークMLE-bench上に構築)の2つの診断スイートを紹介する。
すべてのタスクに対して、元の完全に指定されたバージョンとコントロールされた編集によって生成されるあいまいな変種をペアリングします。
スイートは独立して解析され、あいまいさは両方のパフォーマンスを低下させる。
5つのエージェントがフロンティアクラスのモデルにまたがり、制御された診断設定で見つかる。
i) 失敗はサイレントなコミットメントである。 不正なターゲットの提出,不正な測定又は非コミットのベースラインの提出は,実行エラーではなく,Objectiveへの提出である。
二 適当な条件下での損失の大半をエージェントが明らかにすることができるようにし、フレーミング情報が欠落していることが観察された劣化のかなりの部分を引き起こすことを示唆するが、
(三 エージェントがいつ使うべきかを確実に知ることができないこと。寛容なプロンプトは明確なタスクで過剰なタスクを誘発し、保守的なプロンプトは曖昧なタスクで無音なデフォルトを誘導する。)
パイプライン実行ではなく、目標と目的の過小評価を認識することは、標準的なDSエージェント評価から欠落しているボトルネックである。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help? [32.54022440678003]
コーディングエージェントは、完全なコンテキストが与えられたときに複雑なタスクを解決します。
現在のベンチマークは、この障害モードに盲目です。
我々はこの選択的エスカレーションスキルを測定するためにHiL-Benchを提案する。
論文 参考訳(メタデータ) (2026-04-10T15:21:44Z) - Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes [37.92248202525651]
本稿では,低レベルの物理的実行から高レベルのユーザ意図理解を分離するためのDual-Stage Intent-Aware (DS-IA)フレームワークを提案する。
試験の結果、DS-IAは58.56%(ベースラインを28%以上上回る)のエクサクトマッチ(EM)を達成し、無効命令の拒否率を87.04%に改善した。
論文 参考訳(メタデータ) (2026-03-17T07:38:39Z) - What Makes a Good LLM Agent for Real-world Penetration Testing? [37.56537537883771]
LLMをベースとした28の浸透試験システムを分析し,複雑性の増大を示す3つのベンチマークで5つの代表的実装を評価した。
我々は、B型障害がLLMの根本原因とほとんど変わらず、エージェントはリアルタイムなタスクの難易度推定を欠いていることを示す。
Excaliburは、強力なツールと困難な計画とを結合した浸透試験エージェントである。
論文 参考訳(メタデータ) (2026-02-19T18:42:40Z) - Agentic Rubrics as Contextual Verifiers for SWE Agents [8.469998524915818]
本稿では,エージェントルーブリックがSWEエージェントに対して,効率的でスケーラブルで粒度の高い検証信号を提供することを示す。
結果から,Agenic rubricsは接地トルーステストと整合性を示し,テストが捉えない問題をフラグ付けする。
論文 参考訳(メタデータ) (2026-01-07T18:38:23Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection [98.66771688028426]
本研究では,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。
擬似ラベルの分類とローカライズ品質を定量化するために,JCE(Joint-Confidence Estimation)を提案する。
ARSLは、曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成する。
論文 参考訳(メタデータ) (2023-03-27T07:46:58Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。