論文の概要: When a Reinforcement Learning Agent Encounters Unknown Unknowns
- arxiv url: http://arxiv.org/abs/2505.13188v1
- Date: Mon, 19 May 2025 14:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.662142
- Title: When a Reinforcement Learning Agent Encounters Unknown Unknowns
- Title(参考訳): 強化学習エージェントが未知の未知の人物を識別する場合
- Authors: Juntian Zhu, Miguel de Carvalho, Zhouwang Yang, Fengxiang He,
- Abstract要約: AIのエージェントは、彼女が気づかなかった未知の状態に到達したことに驚くかもしれない。
数学的には、このシナリオは強化学習に基礎を置いている。
未知の未知は驚くべきものであるが、適切な速度と安価なコストで適切に発見されることが示される。
- 参考スコア(独自算出の注目度): 23.92322122252866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An AI agent might surprisingly find she has reached an unknown state which she has never been aware of -- an unknown unknown. We mathematically ground this scenario in reinforcement learning: an agent, after taking an action calculated from value functions $Q$ and $V$ defined on the {\it {aware domain}}, reaches a state out of the domain. To enable the agent to handle this scenario, we propose an {\it episodic Markov decision {process} with growing awareness} (EMDP-GA) model, taking a new {\it noninformative value expansion} (NIVE) approach to expand value functions to newly aware areas: when an agent arrives at an unknown unknown, value functions $Q$ and $V$ whereon are initialised by noninformative beliefs -- the averaged values on the aware domain. This design is out of respect for the complete absence of knowledge in the newly discovered state. The upper confidence bound momentum Q-learning is then adapted to the growing awareness for training the EMDP-GA model. We prove that (1) the regret of our approach is asymptotically consistent with the state of the art (SOTA) without exposure to unknown unknowns in an extremely uncertain environment, and (2) our computational complexity and space complexity are comparable with the SOTA -- these collectively suggest that though an unknown unknown is surprising, it will be asymptotically properly discovered with decent speed and an affordable cost.
- Abstract(参考訳): 人工知能(AI)のエージェントは、自分が知らない状態に到達したと驚くべきことに気づくかもしれない。
エージェントは値関数から計算したアクションを$Q$と$V$で処理した後、ドメインから状態に到達する。
エージェントが未知の未知領域に到達すると、値関数$Q$と$V$が認識領域上の平均値として初期化される。
このデザインは、新しく発見された状態における知識の完全な欠如を尊重するものではない。
次に, EMDP-GAモデルをトレーニングする上で, 高い信頼度境界運動量Q-ラーニングを適用した。
我々は,(1) 未知の未知の環境を極めて不確実な環境で露出することなく,(1) アプローチの後悔は漸近的に最先端(SOTA)と一致していること,(2) 計算複雑性と空間複雑性はSOTAに匹敵するものであることを証明し, 未知の未知が驚くべきものであるとしても, 適切な速度と安価なコストで漸近的に発見されることを示唆している。
関連論文リスト
- Principal-Agent Bandit Games with Self-Interested and Exploratory Learning Agents [16.514561132180134]
本研究では,エージェントが武器を弾くためのインセンティブを提案することで,主役が未知の環境と間接的に対話する繰り返しプリンシパル・エージェント・バンディットゲームについて検討する。
既存の作業の多くは、エージェントが報酬手段について十分な知識を持っていると仮定し、常に欲張りに振る舞うが、多くのオンラインマーケットプレースでは、エージェントは未知の環境を学び、時には探索する必要がある。
そこで我々は,報酬推定を反復的に更新する探索行動を持つ自己関心学習エージェントをモデル化し,推定報酬プラスインセンティブを最大化するアームを選択するか,一定の確率で任意に探索するアームを選択する。
論文 参考訳(メタデータ) (2024-12-20T20:04:50Z) - Few-Shot Open-Set Object Detection via Conditional Evidence Decoupling [8.78242987271299]
FOOD(Open-set Object Detection)は、現実世界のシナリオにおいて大きな課題となる。
それは、未知の物体を拒絶しながら、既知の物体を検出できる、希少な訓練サンプルの条件下でオープンセット検出器を訓練することを目的としている。
そこで我々は,未知の拒絶に対して条件付き証拠を分離した2段階のオープンセットオブジェクト検出フレームワークを,即時学習により構築する。
論文 参考訳(メタデータ) (2024-06-26T15:48:24Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Open Set Relation Extraction via Unknown-Aware Training [72.10462476890784]
負のインスタンスを動的に合成することでモデルを正規化する未知の学習手法を提案する。
テキストの敵対的攻撃に触発されて、我々は適応的に、小さいが重要な摂動を元のトレーニングインスタンスに適用する。
実験結果から, 既知の関係の分類を損なうことなく, 未知の関係検出を行うことができた。
論文 参考訳(メタデータ) (2023-06-08T05:45:25Z) - Representations of epistemic uncertainty and awareness in data-driven
strategies [0.0]
本稿では,エージェントによる知識表現とその伝達における不確実性の理論モデルを提案する。
我々は、推論、嗜好関係、情報測度の観点から、等価な知識表現を考察する。
本稿では,データ駆動戦略における提案モデルの有効性について論じる。
論文 参考訳(メタデータ) (2021-10-21T21:18:21Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Towards Open World Object Detection [68.79678648726416]
ORE: Open World Object Detectorは、対照的なクラスタリングとエネルギーベースの未知の識別に基づいている。
未知のインスタンスの識別と特徴付けは、インクリメンタルなオブジェクト検出設定における混乱を減らすのに役立ちます。
論文 参考訳(メタデータ) (2021-03-03T18:58:18Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。