論文の概要: Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2511.12378v1
- Date: Sat, 15 Nov 2025 22:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.003465
- Title: Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making
- Title(参考訳): 信頼への学習:シークエンシャル意思決定におけるサゲスター信頼性のベイズ適応
- Authors: Dylan M. Asmar, Mykel J. Kochenderfer,
- Abstract要約: 我々は、部分的に観測可能な環境において、様々な提案者信頼性を学習し、適応するフレームワークを導入する。
まず,エージェントの信念表現に直接プロジェクタの品質を組み込むことで,エージェントが提案への依存を推論し,調整することができる。
第二に、エージェントが重要な瞬間に戦略的に提案をリクエストできる明示的な質問行動を導入する。
- 参考スコア(独自算出の注目度): 28.742690356257157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents operating in sequential decision-making tasks under uncertainty can benefit from external action suggestions, which provide valuable guidance but inherently vary in reliability. Existing methods for incorporating such advice typically assume static and known suggester quality parameters, limiting practical deployment. We introduce a framework that dynamically learns and adapts to varying suggester reliability in partially observable environments. First, we integrate suggester quality directly into the agent's belief representation, enabling agents to infer and adjust their reliance on suggestions through Bayesian inference over suggester types. Second, we introduce an explicit ``ask'' action allowing agents to strategically request suggestions at critical moments, balancing informational gains against acquisition costs. Experimental evaluation demonstrates robust performance across varying suggester qualities, adaptation to changing reliability, and strategic management of suggestion requests. This work provides a foundation for adaptive human-agent collaboration by addressing suggestion uncertainty in uncertain environments.
- Abstract(参考訳): 不確実性の下でシーケンシャルな意思決定タスクで作業する自律エージェントは、外部のアクション提案の恩恵を受けることができる。
このようなアドバイスを組み込む既存の方法は、一般的に静的で既知の提案品質パラメータを仮定し、実際のデプロイメントを制限する。
本研究では,部分的に観測可能な環境下で動的に学習し,様々な提案者信頼性に適応するフレームワークを提案する。
まず,提案者の信念表現に直接プロジェクタの品質を組み込むことにより,提案者に対するベイズ的推論による提案への依存度を推論し,調整することができる。
第二に、エージェントが重要なタイミングで提案を戦略的に要求し、情報ゲインと取得コストのバランスをとるための明示的な 'ask' アクションを導入する。
実験により, 提案品質の変動, 信頼性の変化への適応, 提案要求の戦略的管理におけるロバストな性能が示された。
この研究は、不確実な環境における提案の不確実性に対処することで、適応的な人間とエージェントのコラボレーションの基盤を提供する。
関連論文リスト
- Risk-Averse Best Arm Set Identification with Fixed Budget and Fixed Confidence [0.4199844472131922]
本稿では,期待報酬の最大化と関連する不確実性の最小化に対処するバンディット最適化における新たな問題設定を提案する。
固定信頼と固定最適体制の両方の下で動作可能な統一的メタ予算ゴリトミックフレームワークを提案する。
提案手法は,精度と試料効率の両面で既存手法より優れている。
論文 参考訳(メタデータ) (2025-06-27T14:21:03Z) - Uncertainty in Action: Confidence Elicitation in Embodied Agents [7.180871428121812]
本研究は,オープンエンドマルチモーダル環境におけるインボディード・インテリジェンス・エコシテーションに関する最初の研究である。
本稿では, 帰納的, 帰納的, 帰納的推論にまたがる信頼度を, 構造的信頼度評価として導入する。
階層型推論手法であるChain-of-Thoughtsでは,信頼性校正の精度が向上している。
論文 参考訳(メタデータ) (2025-03-13T17:59:41Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Debiasing Recommendation by Learning Identifiable Latent Confounders [49.16119112336605]
コンバウンディングバイアスは、ユーザの露出とフィードバックの両方に影響を与える未測定変数の存在によって生じる。
既存の手法では,(1) 未測定変数について不確定な仮定を行うか,(2) 潜伏した共同創設者を直接ユーザの露出から推測する。
本稿では、上記の非識別問題の解決にプロキシ変数の集合を利用する新しい方法、すなわち、識別可能なデコノウ(iDCF)を提案する。
論文 参考訳(メタデータ) (2023-02-10T05:10:26Z) - Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework [41.04606578479283]
本稿では,Ask-ACと呼ばれる新しいアドバイザリ・イン・ザ・ループアクター・クリティカル・フレームワークを提案する。
Ask-ACの中心には2つの補完的なコンポーネント、すなわちアクションリクエスタとアダプティブステートセレクタがある。
定常環境および非定常環境における実験結果から,提案手法はエージェントの学習効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2022-07-05T10:58:11Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - A two-level solution to fight against dishonest opinions in
recommendation-based trust systems [13.356755375091456]
エージェントが他のエージェントに対して信頼を構築するために、複数の関係者からレコメンデーションを要求するシナリオを考察する。
収集レベルでは,エージェントが推薦の正確さを自己評価できるようにすることを提案する。
処理レベルでは,コラシオン攻撃に耐性のあるレコメンデーションアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2020-06-09T00:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。