論文の概要: LHAW: Controllable Underspecification for Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2602.10525v1
- Date: Wed, 11 Feb 2026 04:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.47185
- Title: LHAW: Controllable Underspecification for Long-Horizon Tasks
- Title(参考訳): LHAW:長期タスクに対する制御可能な不特定性
- Authors: George Pu, Michael S. Lee, Udari Madhushani Sehwag, David J. Lee, Bryan Zhu, Yash Maurya, Mohit Raghavendra, Yuan Xue, Samuel Marc Denton,
- Abstract要約: LHAW(Long-Horizon Augmenteds)は、モジュール型でデータセットに依存しない合成パイプラインである。
あいまいさのLLM予測に依存するアプローチとは異なり、LHAWは経験的エージェント試行を通じて変種を検証し、観察された終端状態のばらつきに基づいて結果クリティカル、発散、良性として分類する。
TheAgentCompany、SWE-Bench Pro、MCP-Atlasから285のタスク変種をリリースし、現在のエージェントが不明瞭な設定に対して不特定性を検知し、推論し、解決する方法を測定した。
- 参考スコア(独自算出の注目度): 8.46227536869596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon workflow agents that operate effectively over extended periods are essential for truly autonomous systems. Their reliable execution critically depends on the ability to reason through ambiguous situations in which clarification seeking is necessary to ensure correct task execution. However, progress is limited by the lack of scalable, task-agnostic frameworks for systematically curating and measuring the impact of ambiguity across custom workflows. We address this gap by introducing LHAW (Long-Horizon Augmented Workflows), a modular, dataset-agnostic synthetic pipeline that transforms any well-specified task into controllable underspecified variants by systematically removing information across four dimensions - Goals, Constraints, Inputs, and Context - at configurable severity levels. Unlike approaches that rely on LLM predictions of ambiguity, LHAW validates variants through empirical agent trials, classifying them as outcome-critical, divergent, or benign based on observed terminal state divergence. We release 285 task variants from TheAgentCompany, SWE-Bench Pro and MCP-Atlas according to our taxonomy alongside formal analysis measuring how current agents detect, reason about, and resolve underspecification across ambiguous settings. LHAW provides the first systematic framework for cost-sensitive evaluation of agent clarification behavior in long-horizon settings, enabling development of reliable autonomous systems.
- Abstract(参考訳): 長期にわたって効果的に機能する長距離ワークフローエージェントは、真に自律的なシステムに不可欠である。
信頼性の高い実行は、正しいタスク実行を保証するために明確化を求める必要のあるあいまいな状況を通じて推論する能力に大きく依存する。
しかし、進捗は、カスタムワークフロー間のあいまいさの影響を体系的にキュレートし測定する、スケーラブルでタスクに依存しないフレームワークが欠如していることによって制限される。
LHAW(Long-Horizon Augmented Workflows)は、モジュール型でデータセットに依存しない合成パイプラインで、よく特定されたタスクを制御不能な変種に変換する。
あいまいさのLLM予測に依存するアプローチとは異なり、LHAWは経験的エージェント試行を通じて変種を検証し、観察された終端状態のばらつきに基づいて結果クリティカル、発散、良性として分類する。
TheAgentCompany, SWE-Bench Pro, MCP-Atlasの285のタスク変種を分類基準に従ってリリースし, 現状のエージェントが不明瞭な設定をどう検出し, 推論し, 解決するかを形式解析した。
LHAWは、長期にわたる環境下でのエージェントの明確化行動のコスト感受性評価のための最初の体系的フレームワークを提供する。
関連論文リスト
- LLM-Assisted Logic Rule Learning: Scaling Human Expertise for Time Series Anomaly Detection [0.9740025522928777]
時系列異常検出はサプライチェーン管理において積極的な操作を行う上で重要である。
本稿では,大規模言語モデル(LLM)を利用して,人間の専門知識を解釈可能な論理ベースのルールに体系的にエンコードするフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-27T06:37:37Z) - LLM Performance Predictors: Learning When to Escalate in Hybrid Human-AI Moderation Systems [5.7001352660257005]
本稿では,コンテンツモデレーションシステムにおける不確実性定量化の監視のためのフレームワークを提案する。
提案手法は,実世界のヒューマンAIにおいて,コストアウェアの選択的分類を可能にする。
この研究は、不確実性を認識し、スケーラブルで責任あるヒューマンAIモデレーションのための原則化されたフレームワークを確立する。
論文 参考訳(メタデータ) (2026-01-11T17:46:49Z) - Hypothesize-Then-Verify: Speculative Root Cause Analysis for Microservices with Pathwise Parallelism [19.31110304702373]
SpecRCAは、thithypothesize-then-verifyパラダイムを採用した投機的根本原因分析フレームワークである。
AIOps 2022に関する予備的な実験では、既存のアプローチよりも精度と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2026-01-06T05:58:25Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - The Illusion of Procedural Reasoning: Measuring Long-Horizon FSM Execution in LLMs [10.228723521208858]
大規模言語モデル (LLM) は推論問題としてのタスクにおいて顕著な結果を得た。
手続き的推論を実行し、多段階のルールベースの計算を実行する真の能力は、まだ不明である。
LLMの手続き的推論能力を評価するためのフレームワークとして有限状態機械実行を導入する。
論文 参考訳(メタデータ) (2025-11-05T18:44:47Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。