論文の概要: An Oracle and Observations for the OpenAI Gym / ALE Freeway Environment
- arxiv url: http://arxiv.org/abs/2109.01220v1
- Date: Thu, 2 Sep 2021 21:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 14:00:20.241846
- Title: An Oracle and Observations for the OpenAI Gym / ALE Freeway Environment
- Title(参考訳): OracleとOpenAI Gym/ALE高速道路環境の観測
- Authors: James S. Plank, Catherine D. Schuman and Robert M. Patton
- Abstract要約: OpenAI Gymプロジェクトには、強化学習アルゴリズムのテストベッドを提供することを目標とする数百のコントロール問題が含まれている。
そのような問題のひとつはFreeway-ram-v0であり、エージェントに提示される観察は128バイトのRAMである。
AIエージェントのトレーニングやテストに使用できる,託宣の詳細に加えて,最適なゲームプレイング状況も提示する。
- 参考スコア(独自算出の注目度): 1.525459879693992
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The OpenAI Gym project contains hundreds of control problems whose goal is to
provide a testbed for reinforcement learning algorithms. One such problem is
Freeway-ram-v0, where the observations presented to the agent are 128 bytes of
RAM. While the goals of the project are for non-expert AI agents to solve the
control problems with general training, in this work, we seek to learn more
about the problem, so that we can better evaluate solutions. In particular, we
develop on oracle to play the game, so that we may have baselines for success.
We present details of the oracle, plus optimal game-playing situations that can
be used for training and testing AI agents.
- Abstract(参考訳): OpenAI Gymプロジェクトには、強化学習アルゴリズムのテストベッドを提供することを目標とする数百のコントロール問題が含まれている。
そのような問題のひとつはFreeway-ram-v0であり、エージェントに提示される観察は128バイトのRAMである。
プロジェクトのゴールは、一般のトレーニングで制御問題を解く非専門家のAIエージェントであるが、本研究では、この問題についてより深く学び、より良いソリューションを評価することを目指している。
特に、私たちはオラクルでゲームをするために開発し、成功のベースラインを持てるかもしれません。
AIエージェントのトレーニングやテストに使用できる,託宣の詳細に加えて,最適なゲームプレイング状況も提示する。
関連論文リスト
- DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Responsible AI (RAI) Games and Ensembles [30.110052769733247]
本稿では,Responsible AI(RAI)ゲーム(Responsible AI)と呼ばれる問題を研究するための一般的なフレームワークを提供する。
a)ゲームプレイベースアルゴリズムと(b)ステージワイズ推定アルゴリズムの2つのクラスを提供する。
我々は、いくつかのRAI問題、特にサブポピュレーションシフトに関して、我々の技術の適用性と競争性能を実証的に実証した。
論文 参考訳(メタデータ) (2023-10-28T22:17:30Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Seamful XAI: Operationalizing Seamful Design in Explainable AI [59.89011292395202]
AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。
本稿では, 社会工学的・インフラ的ミスマッチを明らかにすることにより, シームレスな設計がAIの説明可能性を高めることを提案する。
43人のAI実践者と実際のエンドユーザでこのプロセスを探求します。
論文 参考訳(メタデータ) (2022-11-12T21:54:05Z) - The First AI4TSP Competition: Learning to Solve Stochastic Routing
Problems [10.388013100067266]
本報告は,2021年人工知能国際会議(IJCAI-21)における,旅行セールスマン問題(TTSP)に関する初の国際コンペティションである。
コンペティションは参加者に対して、ウェイトとタイムウィンドウ(TD-OPSWTW)による時間依存オリエンテーリング問題を解決するアルゴリズムの開発を依頼した。
この研究で述べられている勝利の方法は、AIを使って問題をルーティングするための最先端のAIを進歩させた。
論文 参考訳(メタデータ) (2022-01-25T16:55:33Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Learning to Play Imperfect-Information Games by Imitating an Oracle
Planner [77.67437357688316]
我々は、同時移動と大規模なステートアクションスペースでマルチプレイヤーの不完全な情報ゲームをプレイする学習を検討します。
我々のアプローチはモデルに基づく計画に基づいている。
我々は,Clash Royale と Pommerman のゲームにおいて,プランナーが効率的なプレイ戦略を発見することができることを示す。
論文 参考訳(メタデータ) (2020-12-22T17:29:57Z) - Solving The Lunar Lander Problem under Uncertainty using Reinforcement
Learning [0.0]
強化学習(Reinforcement Learning、RL)は、エージェントが不確実性のある環境をナビゲートできるようにするための機械学習の分野である。
我々はOpenAI GymのLunarLander-v2環境上で,SarsaとDeep QLearningという2つのRL技術を実装し,解析する。
論文 参考訳(メタデータ) (2020-11-24T02:35:21Z) - A Metric Learning Approach to Anomaly Detection in Video Games [1.1602089225841632]
我々は、異常検出のための効率的な深度学習手法として、ステート・ステート・シームズ・ネットワーク(S3N)を開発した。
我々は,一連のアタリゲームにおいて経験的評価により,S3Nが意味のある埋め込みを学習できることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:23:21Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。