論文の概要: HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
- arxiv url: http://arxiv.org/abs/2604.09408v1
- Date: Fri, 10 Apr 2026 15:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.924792
- Title: HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
- Title(参考訳): HiL-Bench (Human-in-Loop Benchmark): エージェントはいつ助けを求めるべきか知っているか?
- Authors: Mohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu,
- Abstract要約: コーディングエージェントは、完全なコンテキストが与えられたときに複雑なタスクを解決します。
現在のベンチマークは、この障害モードに盲目です。
我々はこの選択的エスカレーションスキルを測定するためにHiL-Benchを提案する。
- 参考スコア(独自算出の注目度): 32.54022440678003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier coding agents solve complex tasks when given complete context but collapse when specifications are incomplete or ambiguous. The bottleneck is not raw capability, but judgment: knowing when to act autonomously and when to ask for help. Current benchmarks are blind to this failure mode. They supply unambiguous detailed instructions and solely reward execution correctness, so an agent that makes a lucky guess for a missing requirement will score identically to one that would have asked to be certain. We present HiL-Bench (Human-in-the-Loop Benchmark) to measure this selective escalation skill. Each task contains human-validated blockers (missing information, ambiguous requests, contradictory information) that surface only through progressive exploration, not upfront inspection. Our core metric, Ask-F1, the harmonic mean of question precision and blocker recall, captures the tension between over-asking and silent guessing; its structure architecturally prevents gaming through question spam. Evaluation across SWE and text-to-SQL domains reveals a large universal judgment gap: no frontier model recovers more than a fraction of its full-information performance when deciding whether to ask. Failure analysis identifies three key help-seeking patterns: overconfident wrong beliefs with no gap detection; high uncertainty detection yet persistent errors; broad, imprecise escalation without self-correction. These consistent patterns confirm poor help-seeking is a model-level flaw, not task-specific. RL training on shaped Ask-F1 reward shows judgment is trainable: a 32B model improves both help-seeking quality and task pass rate, with gains that transfer across domains. The model does not learn domain-specific heuristics for when to ask; it learns to detect unresolvable uncertainty and act on it.
- Abstract(参考訳): フロンティアコーディングエージェントは、完全なコンテキストが与えられたときに複雑なタスクを解決しますが、仕様が不完全か曖昧かによって崩壊します。
ボトルネックは生の能力ではなく、判断です – いつ自律的に行動すべきか、いつ助けを求めるのかを知ることです。
現在のベンチマークは、この障害モードに盲目です。
彼らは不明瞭な詳細な指示を提供し、実行の正当性のみを報いるので、不足した要求に対するラッキーな推測をするエージェントは、確実であるように要求されたものと同一のスコアを得る。
本稿では、Human-in-the-Loop Benchmark(Human-in-the-Loop Benchmark)を用いて、この選択エスカレーションスキルを測定する。
それぞれのタスクには、事前検査ではなく、進歩的な探索を通してのみ表面化する、有能なブロッカ(情報の欠如、曖昧な要求、矛盾した情報)が含まれている。
私たちの中核となる指標であるAsk-F1は、質問精度とブロッカーリコールの調和平均であり、過度な推測と無音な推測の緊張を捉えています。
SWEとtext-to-SQLドメインによる評価では、大きな普遍的な判断ギャップが明らかになっている。
失敗分析は、3つの重要な助けを探すパターンを識別する: 誤った信念を過度に確信し、ギャップを検知せず、高い不確実性検出と永続的なエラー、そして、自己補正なしで、広範で不正確なエスカレーション。
これらの一貫性のあるパターンは、貧弱なヘルプ検索は、タスク固有のものではなく、モデルレベルの欠陥であることを確認した。
形状のAsk-F1報酬に対するRLトレーニングは、判断が訓練可能であることを示している。32Bモデルは、ドメイン間で転送されるゲインによって、ヘルプ検索の品質とタスクパス率の両方を改善する。
モデルは、いつ尋ねるかのドメイン固有のヒューリスティックを学ばず、解決不可能な不確実性を検出し、それに取り組むことを学習する。
関連論文リスト
- Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention [61.82680155643223]
我々は,不整合決定境界の根本原因を同定し,蓄積した情報が回答するのに十分であるかどうかをしきい値に判定する。
これにより、過剰探索(十分な知識にもかかわらず冗長探索)と過度探索(早期終了)が誤った答えをもたらす。
まず,境界誤差を識別する因果的介入に基づく診断手法を提案する。
第2に,Deep Search Agent(DAS)のための決定境界アライメントを開発する。
我々のDAS法はこれらの境界を効果的に校正し、オーバーサーチとアンダーサーチの両方を緩和し、精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-03T09:29:06Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。