論文の概要: Blessing from Experts: Super Reinforcement Learning in Confounded
Environments
- arxiv url: http://arxiv.org/abs/2209.15448v1
- Date: Thu, 29 Sep 2022 16:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 17:01:30.144205
- Title: Blessing from Experts: Super Reinforcement Learning in Confounded
Environments
- Title(参考訳): 専門家からの祝福 - コングラウンド環境における超強化学習
- Authors: Jiayi Wang, Zhengling Qi, Chengchun Shi
- Abstract要約: バッチ設定に超強化学習を導入し、観察された動作を政策学習のインプットとして捉えた。
計測されていない共同創設者の存在下では、人間の専門家による推奨によって、観測されていない情報の回復が可能になる。
2つの超政治学習アルゴリズムを開発し、対応する有限サンプル後悔保証を導出する。
- 参考スコア(独自算出の注目度): 11.069252535469644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce super reinforcement learning in the batch setting, which takes
the observed action as input for enhanced policy learning. In the presence of
unmeasured confounders, the recommendations from human experts recorded in the
observed data allow us to recover certain unobserved information. Including
this information in the policy search, the proposed super reinforcement
learning will yield a super-policy that is guaranteed to outperform both the
standard optimal policy and the behavior one (e.g., the expert's
recommendation). Furthermore, to address the issue of unmeasured confounding in
finding super-policies, a number of non-parametric identification results are
established. Finally, we develop two super-policy learning algorithms and
derive their corresponding finite-sample regret guarantees.
- Abstract(参考訳): 本稿では,観察したアクションをインプットとして,強化ポリシー学習を行うバッチ学習にスーパー強化学習を導入する。
計測されていない共同創設者の存在下では、観測データに記録された人間の専門家による勧告により、観測されていない情報の回復が可能になる。
政策探索にこの情報を含めると、提案された超強化学習は、標準的な最適政策と行動1(例えば専門家の推薦)の両方を上回ることが保証される超政治をもたらす。
さらに、超ポリティシー発見における未測定の共起問題に対処するために、非パラメトリック識別結果が多数確立されている。
最後に,超ポリティカル学習アルゴリズムを2つ開発し,それに対応する有限サンプル後悔保証を導出する。
関連論文リスト
- AI-Driven Human-Autonomy Teaming in Tactical Operations: Proposed Framework, Challenges, and Future Directions [10.16399860867284]
人工知能(AI)技術は、人間の意思決定能力を増強することで戦術的操作を変革している。
本稿では,AI駆動型人間自律チーム(HAT)を変革的アプローチとして検討する。
我々はAI駆動型HATの重要なコンポーネントに対処する包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-28T15:05:16Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Attaining Human`s Desirable Outcomes in Human-AI Interaction via Structural Causal Games [34.34801907296059]
人間とAIの相互作用において、顕著なゴールは、AIエージェントの助けを借りて、人間が望ましい結果を達成することである。
我々は、人間とAIの対話プロセスを形式化するために、構造因果ゲーム(SCG)と呼ばれる理論的枠組みを用いる。
我々は、AIエージェントを操り、人間に望ましい結果を得るための、SCGに対する事前政治介入と呼ばれる戦略を導入する。
論文 参考訳(メタデータ) (2024-05-26T14:42:49Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Learning to Make Adherence-Aware Advice [8.419688203654948]
本稿では,人間の従順性を考慮した逐次意思決定モデルを提案する。
最適なアドバイスポリシーを学習し、重要なタイムスタンプでのみアドバイスを行う学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-10-01T23:15:55Z) - From DDMs to DNNs: Using process data and models of decision-making to
improve human-AI interactions [1.1510009152620668]
人工知能(AI)の研究は、意思決定が時間とともにどのように現れるかについての洞察に強い焦点をあてることから恩恵を受けるだろう、と私たちは主張する。
まず,ノイズの蓄積による決定を前提とした,高度に確立された計算フレームワークを提案する。
次に、マルチエージェントAIにおける現在のアプローチが、プロセスデータや意思決定のモデルをどの程度取り入れているかについて議論する。
論文 参考訳(メタデータ) (2023-08-29T11:27:22Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。
私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。