論文の概要: Blessing from Human-AI Interaction: Super Reinforcement Learning in
Confounded Environments
- arxiv url: http://arxiv.org/abs/2209.15448v2
- Date: Sat, 21 Oct 2023 01:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:46:07.045100
- Title: Blessing from Human-AI Interaction: Super Reinforcement Learning in
Confounded Environments
- Title(参考訳): 人間とaiの相互作用から祝福する: コングラウンド環境における超強化学習
- Authors: Jiayi Wang, Zhengling Qi, Chengchun Shi
- Abstract要約: 本稿では,データ駆動シーケンシャル意思決定に人間-AIインタラクションを活用する超強化学習のパラダイムを紹介する。
未測定のコンファウンディングを伴う意思決定プロセスでは、過去のエージェントによって取られたアクションは、未開示の情報に対する貴重な洞察を提供することができる。
我々は、いくつかの超政治学習アルゴリズムを開発し、その理論的性質を体系的に研究する。
- 参考スコア(独自算出の注目度): 19.944163846660498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI becomes more prevalent throughout society, effective methods of
integrating humans and AI systems that leverage their respective strengths and
mitigate risk have become an important priority. In this paper, we introduce
the paradigm of super reinforcement learning that takes advantage of Human-AI
interaction for data driven sequential decision making. This approach utilizes
the observed action, either from AI or humans, as input for achieving a
stronger oracle in policy learning for the decision maker (humans or AI). In
the decision process with unmeasured confounding, the actions taken by past
agents can offer valuable insights into undisclosed information. By including
this information for the policy search in a novel and legitimate manner, the
proposed super reinforcement learning will yield a super-policy that is
guaranteed to outperform both the standard optimal policy and the behavior one
(e.g., past agents' actions). We call this stronger oracle a blessing from
human-AI interaction. Furthermore, to address the issue of unmeasured
confounding in finding super-policies using the batch data, a number of
nonparametric and causal identifications are established. Building upon on
these novel identification results, we develop several super-policy learning
algorithms and systematically study their theoretical properties such as
finite-sample regret guarantee. Finally, we illustrate the effectiveness of our
proposal through extensive simulations and real-world applications.
- Abstract(参考訳): 社会全体でAIが普及するにつれて、それぞれの強みを活用しリスクを軽減する人間とAIシステムを統合する効果的な方法が重要になっている。
本稿では,データ駆動逐次意思決定における人間-aiインタラクションを活用したスーパー強化学習のパラダイムを提案する。
このアプローチは、意思決定者(人間またはAI)のための政策学習において、より強力なオラクルを達成するための入力として、AIまたは人間からの観察されたアクションを利用する。
未測定のコンファウンディングを伴う意思決定プロセスでは、過去のエージェントによるアクションは、未開示の情報に対する貴重な洞察を提供することができる。
方針探索のためのこの情報を新規かつ正当な方法で含むことにより、提案されたスーパー強化学習は、標準の最適方針と行動の双方(例えば過去のエージェントの行動)を上回ることが保証されるスーパーポリシーをもたらす。
私たちはこの強力な神託を、人間とAIの相互作用から祝福している。
さらに、バッチデータを用いた超ポリティシーの探索において、未測定の共起の問題に対処するため、非パラメトリックおよび因果的識別が多数確立される。
これらの新たな識別結果に基づいて,超ポリティカル学習アルゴリズムを開発し,有限サンプル後悔保証などの理論的性質を体系的に研究する。
最後に,本提案の有効性をシミュレーションと実世界の応用により示す。
関連論文リスト
- AI-Driven Human-Autonomy Teaming in Tactical Operations: Proposed Framework, Challenges, and Future Directions [10.16399860867284]
人工知能(AI)技術は、人間の意思決定能力を増強することで戦術的操作を変革している。
本稿では,AI駆動型人間自律チーム(HAT)を変革的アプローチとして検討する。
我々はAI駆動型HATの重要なコンポーネントに対処する包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-28T15:05:16Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Attaining Human`s Desirable Outcomes in Human-AI Interaction via Structural Causal Games [34.34801907296059]
人間とAIの相互作用において、顕著なゴールは、AIエージェントの助けを借りて、人間が望ましい結果を達成することである。
我々は、人間とAIの対話プロセスを形式化するために、構造因果ゲーム(SCG)と呼ばれる理論的枠組みを用いる。
我々は、AIエージェントを操り、人間に望ましい結果を得るための、SCGに対する事前政治介入と呼ばれる戦略を導入する。
論文 参考訳(メタデータ) (2024-05-26T14:42:49Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Learning to Make Adherence-Aware Advice [8.419688203654948]
本稿では,人間の従順性を考慮した逐次意思決定モデルを提案する。
最適なアドバイスポリシーを学習し、重要なタイムスタンプでのみアドバイスを行う学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-10-01T23:15:55Z) - From DDMs to DNNs: Using process data and models of decision-making to
improve human-AI interactions [1.1510009152620668]
人工知能(AI)の研究は、意思決定が時間とともにどのように現れるかについての洞察に強い焦点をあてることから恩恵を受けるだろう、と私たちは主張する。
まず,ノイズの蓄積による決定を前提とした,高度に確立された計算フレームワークを提案する。
次に、マルチエージェントAIにおける現在のアプローチが、プロセスデータや意思決定のモデルをどの程度取り入れているかについて議論する。
論文 参考訳(メタデータ) (2023-08-29T11:27:22Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。
私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。