論文の概要: Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?
- arxiv url: http://arxiv.org/abs/2605.07937v1
- Date: Fri, 08 May 2026 16:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.187777
- Title: Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?
- Title(参考訳): Ask Early, Ask late, Ask Right: When does Clarification Timing Matters for Long-Horizon Agents?
- Authors: Anmol Gulati, Hariom Gupta, Elias Lumer, Sahil Sen, Vamse Kumar Subbiah,
- Abstract要約: 本稿では,エージェントの軌道の制御点における接地真実の明確化を提供する強制注入フレームワークを提案する。
明確化の価値は、どの情報が欠落しているかに大きく依存している。
300のセッションを補完する研究により、現在のフロンティアモデルは経験的に最適なウィンドウ内では問わないことが明らかになった。
- 参考スコア(独自算出の注目度): 0.7199239000118145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon AI agents execute complex workflows spanning hundreds of sequential actions, yet a single wrong assumption early on can cascade into irreversible errors. When instructions are incomplete, the agent must decide not only whether to ask for clarification but when, and no prior work measures how clarification value changes over the course of execution. We introduce a forced-injection framework that provides ground-truth clarifications at controlled points in the agent's trajectory across four information dimensions (goal, input, constraint, context), three agent benchmarks, and four frontier models (three per benchmark; one on a single benchmark only; 84 task variants; 6,000+ runs). Counter to the common intuition that "earlier is always better," we find that the value of clarification depends sharply on what information is missing: goal clarification loses nearly all value after 10% of execution (pass@3 drops from 0.78 to baseline), while input clarification retains value through roughly 50%. Deferring any clarification type past mid-trajectory degrades performance below never asking at all. Cross-model Kendall tau correlations (0.78-0.87 among models sharing identical task coverage; 0.34-0.67 across the full 4-model panel) confirm these timing profiles are substantially task-intrinsic. A complementary study of 300 unscripted sessions reveals that no current frontier model asks within the empirically optimal window, with strategies ranging from over-asking (52% of sessions) to never asking at all. These empirical demand curves provide the quantitative foundation that existing theoretical frameworks require but have lacked, and establish concrete design targets for timing-aware clarification policies. Code and data will be publicly released.
- Abstract(参考訳): ロングホライゾンAIエージェントは、数百のシーケンシャルなアクションにまたがる複雑なワークフローを実行する。
指示が不完全である場合、エージェントは明確化を求めるかどうかを判断するだけでなく、実行中に明確化の値がどのように変化するかを事前に測定しなければなりません。
本稿では,4つの情報次元(ゴール,入力,制約,コンテキスト),3つのエージェントベンチマーク,および4つのフロンティアモデル(ベンチマーク毎に3つ,1つのベンチマークで1つ,84のタスク変種,6,000以上の実行)にまたがるエージェントの軌道の制御点における基調的明確化を提供する強制注入フレームワークを提案する。
ゴールの明確化は実行の10%後にほぼすべての値を失う(pass@3は0.78からベースラインに低下する)のに対して、入力の明確化はおよそ50%の値を保持する。
軌道の途中で明確化タイプを定義することは、決して要求しない以下のパフォーマンスを低下させる。
クロスモデルKendall Tau相関(同一タスクカバレッジを共有するモデルで0.78-0.87、フル4モデルパネルで0.34-0.67)は、これらのタイミングプロファイルが実質的にタスク固有のものであることを証明している。
300のセッションを補完する研究によると、現在のフロンティアモデルは、経験的に最適なウィンドウ内では問わない。
これらの経験的需要曲線は、既存の理論フレームワークが必要とする量的基盤を提供し、タイミング対応の明確化政策のための具体的な設計目標を確立する。
コードとデータは公開されます。
関連論文リスト
- Knowing but Not Correcting: Routine Task Requests Suppress Factual Correction in LLMs [26.062372963777452]
LLMは、独立して提示された時に確実に偽のクレームを訂正するが、同じクレームがタスク指向のリクエストに埋め込まれている場合、そのクレームは正しいというよりも、従うことが多い。
我々は、この障害モードの誤り訂正を抑え、300の偽の前提のベンチマークを構築し、8つのモデルで体系的に評価する。
抑制率は19%から90%で、4つのモデルが80%を超え、修正抑制が一般的で深刻な現象として確立された。
論文 参考訳(メタデータ) (2026-05-07T10:04:39Z) - KWBench: Measuring Unprompted Problem Recognition in Knowledge Work [0.0]
KWBenchは、大規模言語モデルにおける未証明問題認識のベンチマークである。
解決しようとする前に、プロのシナリオを特定することができます。
これには、買収、契約交渉、臨床薬局、組織政治、詐欺分析、インセンティブデザインを含む223の業務が含まれている。
論文 参考訳(メタデータ) (2026-04-17T07:04:54Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval [0.0]
大型言語モデル (LLM) は前例のない流布を達成したが、「幻覚」の影響を受けないままである。
本研究では,LLMをパターンマッチングから真偽探索へシフトさせることにより,事実不正確さを検知する階層型検索・検証アーキテクチャを提案する。
システムは5つの多様なベンチマークから650のクエリで評価された。
論文 参考訳(メタデータ) (2026-03-18T15:59:30Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Can We Predict Before Executing Machine Learning Agents? [74.39460101251792]
データ中心のソリューション優先のタスクを形式化し、18,438対比較の包括的コーパスを構築する。
検証データ解析レポートを作成した場合, LLM は重要な予測能力を示すことを示す。
このフレームワークをForEAGENT(Predict-then-Verifyループを利用するエージェント)でインスタンス化し、実行ベースラインを+6%超えながらコンバージェンスを6倍高速化する。
論文 参考訳(メタデータ) (2026-01-09T16:44:17Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。