論文の概要: Agentic Uncertainty Reveals Agentic Overconfidence
- arxiv url: http://arxiv.org/abs/2602.06948v1
- Date: Fri, 06 Feb 2026 18:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.538264
- Title: Agentic Uncertainty Reveals Agentic Overconfidence
- Title(参考訳): エージェント不確実性はエージェント過信を暴露する
- Authors: Jean Kaddour, Srijan Patel, Gbètondji Dovonon, Leo Richter, Pasquale Minervini, Matt J. Kusner,
- Abstract要約: わずか22%しか成功しないエージェントは77%の成功を予測している。
厳格に少ない情報による事前実行評価は、標準的な事後レビューよりも優れた差別をもたらす傾向にある。
- 参考スコア(独自算出の注目度): 23.11239173900246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can AI agents predict whether they will succeed at a task? We study agentic uncertainty by eliciting success probability estimates before, during, and after task execution. All results exhibit agentic overconfidence: some agents that succeed only 22% of the time predict 77% success. Counterintuitively, pre-execution assessment with strictly less information tends to yield better discrimination than standard post-execution review, though differences are not always significant. Adversarial prompting reframing assessment as bug-finding achieves the best calibration.
- Abstract(参考訳): AIエージェントは、タスクが成功するかどうかを予測できますか?
タスク実行前, 実行中, 実行後において, 成功確率を推定し, エージェントの不確実性について検討する。
エージェントの22%しか成功しないエージェントは77%の成功を予測している。
厳密には情報の少ない事前実行評価は、標準的な事後レビューよりも優れた差別をもたらす傾向にあるが、必ずしも違いが重要であるとは限らない。
バグフィディングが最適なキャリブレーションを達成するためには,逆方向のリフレーミングアセスメントが有効である。
関連論文リスト
- The Evaluation Gap in Medicine, AI and LLMs: Navigating Elusive Ground Truth & Uncertainty via a Probabilistic Paradigm [49.287792149338976]
基礎的真理解における高い確実性は、専門家でさえ高いスコアを得るのに、ほぼ常に必要であるということを理論的に説明するために確率論的パラダイムを導入する。
そこで我々は,有能な人間やシステムが与えられた真理応答の変動を推定するために,期待精度と期待F1の概念を導出する。
論文 参考訳(メタデータ) (2026-01-09T03:19:37Z) - Co-Evolving Agents: Learning from Failures as Hard Negatives [38.61683607205988]
近年の研究では、自己改善剤を自力で生成し、精製し、自身の軌道で再訓練する研究が進められている。
本稿では、目標エージェントが補助故障エージェントと共同で改善する共進化型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:30:33Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Benchmarking Uncertainty Disentanglement: Specialized Uncertainties for Specialized Tasks [17.00971204252757]
我々は、ImageNet上で、包括的不確実性推定器を再実装し、評価する。
最近の理論的な試みにも拘わらず、既存のアプローチでは実際には非絡み合う不確実性推定器のペアを提供していない。
本結果は,特定のタスクに使用する不確実性推定器の実践的アドバイスと,タスク中心および不整合不確実性に対する今後の研究の機会を明らかにするものである。
論文 参考訳(メタデータ) (2024-02-29T18:52:56Z) - Query The Agent: Improving sample efficiency through epistemic
uncertainty estimation [18.43044052233102]
目標条件付き強化学習エージェントのカリキュラムは、典型的にはエージェントの不確実性の評価に頼っている。
本稿では,サンプル効率を大幅に向上させる新しいアルゴリズム,Query The Agentを提案する。
我々はQTAが既存の方法よりも決定的なサンプル効率向上をもたらすことを実証した。
論文 参考訳(メタデータ) (2022-10-05T22:25:15Z) - Uncertainty Quantification for Competency Assessment of Autonomous
Agents [3.3517146652431378]
自律的なエージェントは 適切なレベルの信頼を 人から引き出す必要があります
信頼を構築する方法の1つは、エージェントに与えられたタスクを実行する能力を評価し、伝達させることである。
本稿では, 深部生成モデルのアンサンブルを用いて, エージェントの失語症およびてんかんの不確かさを定量化する方法について述べる。
論文 参考訳(メタデータ) (2022-06-21T17:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。