論文の概要: Learning When Not to Learn: Risk-Sensitive Abstention in Bandits with Unbounded Rewards
- arxiv url: http://arxiv.org/abs/2510.14884v1
- Date: Thu, 16 Oct 2025 17:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.961136
- Title: Learning When Not to Learn: Risk-Sensitive Abstention in Bandits with Unbounded Rewards
- Title(参考訳): 学ぶべきでないときの学習:非拘束者におけるリスク感受性の欠如
- Authors: Sarah Liaw, Benjamin Plaut,
- Abstract要約: 高度なAIアプリケーションでは、単一のアクションでさえ、不可分なダメージを引き起こす可能性がある。
積極的に探索する標準的なバンディットアルゴリズムは、この仮定が失敗すると不可分なダメージを引き起こす可能性がある。
本稿では,学習しないときに学習する警告に基づくアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.006086647446482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-stakes AI applications, even a single action can cause irreparable damage. However, nearly all of sequential decision-making theory assumes that all errors are recoverable (e.g., by bounding rewards). Standard bandit algorithms that explore aggressively may cause irreparable damage when this assumption fails. Some prior work avoids irreparable errors by asking for help from a mentor, but a mentor may not always be available. In this work, we formalize a model of learning with unbounded rewards without a mentor as a two-action contextual bandit with an abstain option: at each round the agent observes an input and chooses either to abstain (always 0 reward) or to commit (execute a preexisting task policy). Committing yields rewards that are upper-bounded but can be arbitrarily negative, and the commit reward is assumed Lipschitz in the input. We propose a caution-based algorithm that learns when not to learn: it chooses a trusted region and commits only where the available evidence does not already certify harm. Under these conditions and i.i.d. inputs, we establish sublinear regret guarantees, theoretically demonstrating the effectiveness of cautious exploration for deploying learning agents safely in high-stakes environments.
- Abstract(参考訳): 高度なAIアプリケーションでは、単一のアクションでさえ、不可分なダメージを引き起こす可能性がある。
しかし、シーケンシャルな意思決定理論のほとんど全ては、全ての誤りが回復可能であると仮定する(例えば、有界な報酬によって)。
積極的に探索する標準的なバンディットアルゴリズムは、この仮定が失敗すると不可分なダメージを引き起こす可能性がある。
メンターから助けを求めることで、事前の作業は不可分なエラーを避けるが、メンターが常に利用できるとは限らない。
本研究では,教師を伴わない非有界報酬を伴う学習モデルについて,各ラウンドでエージェントが入力を観察し,停止するか(通常0報酬)またはコミットするか(既存のタスクポリシーを実行する)を選択するという,2つのアクションのコンテキスト的包帯として定式化する。
コミッティングは上界にあるが任意に負の報酬を与えることができ、コミット報酬は入力でリプシッツと仮定される。
信頼された領域を選択し、利用可能な証拠がまだ害を証明していない場合にのみコミットする。
これらの条件,すなわち入力条件の下では,学習エージェントを安全に配置するための慎重な探索の有効性を理論的に実証し,サブリニアな後悔の保証を確立する。
関連論文リスト
- Safe Learning Under Irreversible Dynamics via Asking for Help [13.369079495587693]
公式な後悔の保証を持つほとんどの学習アルゴリズムは、基本的にすべての可能な振る舞いを試すことに依存します。
この組み合わせにより,エージェントは安全かつ効果的に学習できることを示す。
その結果、エージェントが自己充足性を高めながら高い報酬を得ることが可能であるという、最初の公式な証明となり得る。
論文 参考訳(メタデータ) (2025-02-19T19:01:39Z) - Can a Bayesian Oracle Prevent Harm from an Agent? [48.12936383352277]
我々は、所定の安全仕様に違反する確率に基づいて、文脈依存境界を推定することを検討する。
世界の異なる仮説が全く異なる結果をもたらす可能性があることに注意し、我々は真だが未知の仮説の下で予測される安全違反の確率に基づいて導かれる。
我々は、この結果の2つの形態、すなわち、i.d.の場合と非i.d.の場合を考察し、そのような理論結果を実用的なAIガードレールに変換するためのオープンな問題で結論付ける。
論文 参考訳(メタデータ) (2024-08-09T18:10:42Z) - Avoiding Catastrophe in Online Learning by Asking for Help [7.881265948305421]
本稿では,災害の可能性を最小化するオンライン学習問題を提案する。
まず、一般に、任意のアルゴリズムがメンターを線形にクエリするか、カタストロフィを引き起こすことがほぼ保証されているかを示す。
時間的地平線が大きくなるにつれて,メンターの双方が0に近づいたことを後悔するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-12T21:12:11Z) - The Risks of Recourse in Binary Classification [10.067421338825545]
人口レベルでは,アルゴリズムによる談話の提供が有益か有害かを検討した。
会話を提供することが有害であることが判明した、もっともらしいシナリオがたくさんあることが分かりました。
結論として,現在のアルゴリズム・リコースの概念は確実な有用性を持たず,再考が必要である。
論文 参考訳(メタデータ) (2023-06-01T09:46:43Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。