論文の概要: Leveraging AI to improve human planning in large partially observable
environments
- arxiv url: http://arxiv.org/abs/2302.02785v1
- Date: Mon, 6 Feb 2023 13:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:38:02.738775
- Title: Leveraging AI to improve human planning in large partially observable
environments
- Title(参考訳): 大規模な部分観測可能な環境でAIを活用して人間の計画を改善する
- Authors: Lovis Heindrich, Saksham Consul, Falk Lieder
- Abstract要約: AIは多くの計画タスクで人より優れていますが、よりよい計画の仕方を教えてくれます。
そこで我々は,部分的に観測可能な環境下での人的計画のための資源-合理的戦略を発見するための,最初のメタ推論アルゴリズムを開発した。
我々はまた、より困難な問題にどのように計画するかについてのフィードバックを提供することで、自動的に発見された戦略を教えるインテリジェントな家庭教師も開発した。
- 参考スコア(独自算出の注目度): 4.8986598953553555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI can not only outperform people in many planning tasks, but also teach them
how to plan better. All prior work was conducted in fully observable
environments, but the real world is only partially observable. To bridge this
gap, we developed the first metareasoning algorithm for discovering
resource-rational strategies for human planning in partially observable
environments. Moreover, we developed an intelligent tutor teaching the
automatically discovered strategy by giving people feedback on how they plan in
increasingly more difficult problems. We showed that our strategy discovery
method is superior to the state-of-the-art and tested our intelligent tutor in
a preregistered training experiment with 330 participants. The experiment
showed that people's intuitive strategies for planning in partially observable
environments are highly suboptimal, but can be substantially improved by
training with our intelligent tutor. This suggests our human-centred tutoring
approach can successfully boost human planning in complex, partially observable
sequential decision problems.
- Abstract(参考訳): AIは多くの計画タスクで人を上回るだけでなく、よりよい計画方法を教えることができる。
以前の作業はすべて完全な可観測環境で行われたが、現実の世界は部分的に可観測である。
このギャップを埋めるために,人間計画のための資源有理戦略を部分的に観測可能な環境で発見する最初のメトエリアソンアルゴリズムを開発した。
さらに,より難しい問題に対してどのように計画するかをフィードバックすることで,自動発見戦略を指導するインテリジェントな家庭教師を開発した。
戦略発見手法は最先端技術よりも優れていることを示し、330名の参加者による事前登録トレーニング実験で知的チューターをテストした。
実験の結果,部分観測可能な環境における計画の直観的戦略は極めて最適であるが,知的家庭教師の訓練によって大幅に改善できることがわかった。
これは、人間中心の学習アプローチが、複雑で部分的に観察可能なシーケンシャルな意思決定問題において、人間の計画を促進することを示唆している。
関連論文リスト
- AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Achieving mouse-level strategic evasion performance using real-time
computational planning [59.60094442546867]
計画とは、脳が想像し、予測可能な未来を成立させる特別な能力である。
我々は,動物の生態が空間計画の価値をどのように支配するかという研究に基づいて,より効率的な生物学的に着想を得た計画アルゴリズムであるTLPPOを開発した。
TLPPOを用いたリアルタイムエージェントの性能とライブマウスの性能を比較し,ロボット捕食者を避けることを課題とする。
論文 参考訳(メタデータ) (2022-11-04T18:34:36Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Automatic discovery and description of human planning strategies [0.7734726150561086]
我々は、AIを戦略発見に活用し、人間の計画を理解する。
我々のアルゴリズムはHuman-Interpretと呼ばれ、模倣学習を用いてプロセストレースデータを記述する。
得られた人的計画戦略の記述は,人為的記述とほぼ同程度に理解できることがわかった。
論文 参考訳(メタデータ) (2021-09-29T15:20:16Z) - Improving Human Sequential Decision-Making with Reinforcement Learning [32.969050978497066]
トレースデータから"ベストプラクティス"を抽出できる新しい機械学習アルゴリズムを設計する。
我々のアルゴリズムは、労働者の行動と最適な政策によって取られた行動のギャップを最もうまく埋めるヒントを選択する。
実験の結果,提案アルゴリズムが生成したチップは人体の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-19T02:57:58Z) - Systematic human learning and generalization from a brief tutorial with
explanatory feedback [3.7826494079172557]
本研究では,人間の成体による抽象的推論課題の学習能力について考察する。
課題をマスターする参加者は,少数の試行錯誤で達成し,学習範囲外のパズルによく当てはまる。
また,課題を習得した者の多くは有効な解法戦略を記述でき,その参加者は,戦略記述が曖昧で不完全である者よりも,伝達パズルに優れていた。
論文 参考訳(メタデータ) (2021-07-10T00:14:41Z) - Control of mental representations in human planning [38.227123320091046]
人間の計画の2つの側面は、複雑な環境においてもその効率性と、変化する環境においても柔軟性を示す。
効率性は特に印象的です。なぜなら、最適計画を直接計算することは、控えめに複雑なタスクであっても困難であり、認知リソースが限られているにもかかわらず、無数の問題を解決できるからです。
本稿では,精神表現の制御が可能であり,適応的に問題を単純化し,より容易に推論できることを提案する。
論文 参考訳(メタデータ) (2021-05-14T16:39:31Z) - Improving Human Decision-Making by Discovering Efficient Strategies for
Hierarchical Planning [0.6882042556551609]
計算資源が限られているため、効率的な計画戦略が必要です。
これらの戦略を計算する能力は、以前は非常に小さく、非常に単純な計画タスクに限られていました。
本稿では,この制限を克服できる認知型強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T19:46:00Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。