論文の概要: Uncertainty in Action: Confidence Elicitation in Embodied Agents
- arxiv url: http://arxiv.org/abs/2503.10628v1
- Date: Thu, 13 Mar 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:24.627017
- Title: Uncertainty in Action: Confidence Elicitation in Embodied Agents
- Title(参考訳): 不確実性: 炭水化物中における信頼の緩和
- Authors: Tianjiao Yu, Vedant Shah, Muntasir Wahed, Kiet A. Nguyen, Adheesh Juvekar, Tal August, Ismini Lourentzou,
- Abstract要約: 本研究は,オープンエンドマルチモーダル環境におけるインボディード・インテリジェンス・エコシテーションに関する最初の研究である。
本稿では, 帰納的, 帰納的, 帰納的推論にまたがる信頼度を, 構造的信頼度評価として導入する。
階層型推論手法であるChain-of-Thoughtsでは,信頼性校正の精度が向上している。
- 参考スコア(独自算出の注目度): 7.180871428121812
- License:
- Abstract: Expressing confidence is challenging for embodied agents navigating dynamic multimodal environments, where uncertainty arises from both perception and decision-making processes. We present the first work investigating embodied confidence elicitation in open-ended multimodal environments. We introduce Elicitation Policies, which structure confidence assessment across inductive, deductive, and abductive reasoning, along with Execution Policies, which enhance confidence calibration through scenario reinterpretation, action sampling, and hypothetical reasoning. Evaluating agents in calibration and failure prediction tasks within the Minecraft environment, we show that structured reasoning approaches, such as Chain-of-Thoughts, improve confidence calibration. However, our findings also reveal persistent challenges in distinguishing uncertainty, particularly under abductive settings, underscoring the need for more sophisticated embodied confidence elicitation methods.
- Abstract(参考訳): 自信を表現することは、動的マルチモーダル環境をナビゲートするエンボディエージェントにとって困難であり、認識と意思決定プロセスの両方から不確実性が発生する。
本研究は,オープンエンドマルチモーダル環境におけるインボディード・インテリジェンス・エコシテーションに関する最初の研究である。
本稿では, 帰納的, 帰納的, 帰納的推論にまたがる信頼度評価と, シナリオ再解釈, 行動サンプリング, 仮説推論による信頼度校正を向上する実行ポリシーを紹介する。
Minecraft環境でのキャリブレーションおよび故障予測タスクにおけるエージェントの評価を行い,チェイン・オブ・ソートのような構造的推論手法が信頼性キャリブレーションを改善することを示した。
しかし,本研究は,不確実性,特に誘因的条件下での識別において,より高度なエンボディド・インテリジェンス・エスカレーション法の必要性を浮き彫りにしている。
関連論文リスト
- Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - InternalInspector $I^2$: Robust Confidence Estimation in LLMs through Internal States [44.78029091831383]
InternalInspectorは,Large Language Models(LLMs)における信頼性評価を強化するためのフレームワークである
最終的なアクティベーション状態に主にフォーカスする既存の方法とは異なり、InternalInspectorはすべてのレイヤの内部状態を網羅的に分析し、正しい予測プロセスと間違った予測プロセスの両方を正確に識別する。
論文 参考訳(メタデータ) (2024-06-17T19:46:05Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z) - Uncertainty Quantification for Competency Assessment of Autonomous
Agents [3.3517146652431378]
自律的なエージェントは 適切なレベルの信頼を 人から引き出す必要があります
信頼を構築する方法の1つは、エージェントに与えられたタスクを実行する能力を評価し、伝達させることである。
本稿では, 深部生成モデルのアンサンブルを用いて, エージェントの失語症およびてんかんの不確かさを定量化する方法について述べる。
論文 参考訳(メタデータ) (2022-06-21T17:35:13Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Uncertainty as a Form of Transparency: Measuring, Communicating, and
Using Uncertainty [66.17147341354577]
我々は,モデル予測に関連する不確実性を推定し,伝達することにより,相補的な透明性の形式を考えることについて議論する。
モデルの不公平性を緩和し、意思決定を強化し、信頼できるシステムを構築するために不確実性がどのように使われるかを説明する。
この研究は、機械学習、可視化/HCI、デザイン、意思決定、公平性にまたがる文学から引き出された学際的レビューを構成する。
論文 参考訳(メタデータ) (2020-11-15T17:26:14Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。