論文の概要: An Oracle and Observations for the OpenAI Gym / ALE Freeway Environment
- arxiv url: http://arxiv.org/abs/2109.01220v1
- Date: Thu, 2 Sep 2021 21:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 14:00:20.241846
- Title: An Oracle and Observations for the OpenAI Gym / ALE Freeway Environment
- Title(参考訳): OracleとOpenAI Gym/ALE高速道路環境の観測
- Authors: James S. Plank, Catherine D. Schuman and Robert M. Patton
- Abstract要約: OpenAI Gymプロジェクトには、強化学習アルゴリズムのテストベッドを提供することを目標とする数百のコントロール問題が含まれている。
そのような問題のひとつはFreeway-ram-v0であり、エージェントに提示される観察は128バイトのRAMである。
AIエージェントのトレーニングやテストに使用できる,託宣の詳細に加えて,最適なゲームプレイング状況も提示する。
- 参考スコア(独自算出の注目度): 1.525459879693992
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The OpenAI Gym project contains hundreds of control problems whose goal is to
provide a testbed for reinforcement learning algorithms. One such problem is
Freeway-ram-v0, where the observations presented to the agent are 128 bytes of
RAM. While the goals of the project are for non-expert AI agents to solve the
control problems with general training, in this work, we seek to learn more
about the problem, so that we can better evaluate solutions. In particular, we
develop on oracle to play the game, so that we may have baselines for success.
We present details of the oracle, plus optimal game-playing situations that can
be used for training and testing AI agents.
- Abstract(参考訳): OpenAI Gymプロジェクトには、強化学習アルゴリズムのテストベッドを提供することを目標とする数百のコントロール問題が含まれている。
そのような問題のひとつはFreeway-ram-v0であり、エージェントに提示される観察は128バイトのRAMである。
プロジェクトのゴールは、一般のトレーニングで制御問題を解く非専門家のAIエージェントであるが、本研究では、この問題についてより深く学び、より良いソリューションを評価することを目指している。
特に、私たちはオラクルでゲームをするために開発し、成功のベースラインを持てるかもしれません。
AIエージェントのトレーニングやテストに使用できる,託宣の詳細に加えて,最適なゲームプレイング状況も提示する。
関連論文リスト
- MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering [35.237253622981264]
MLE-benchは、AIエージェントが機械学習エンジニアリングでどのように機能するかを測定するためのベンチマークである。
われわれはKaggleから75のMLエンジニアリング関連のコンペを開催する。
私たちはKaggleが公開しているリーダーボードを使って、各競技の人間ベースラインを確立します。
論文 参考訳(メタデータ) (2024-10-09T17:34:27Z) - Comparing Zealous and Restrained AI Recommendations in a Real-World Human-AI Collaboration Task [11.040918613968854]
正確さとリコールのトレードオフを慎重に活用することで、チームのパフォーマンスが大幅に向上する、と私たちは主張する。
我々は、a)AIアシストなし、b)高精度な「制限された」AI、c)3,466時間以上のアノテーション作業で、78のプロのアノテータのパフォーマンスを分析する。
論文 参考訳(メタデータ) (2024-10-06T23:19:19Z) - The Widening Gap: The Benefits and Harms of Generative AI for Novice Programmers [1.995977018536036]
初心者プログラマはメタ認知的認識と戦略の欠如により、しばしば問題解決に苦しむ。
多くの初心者がジェネレーティブAI(GenAI)を使ってプログラミングしている
その結果, 加速した学生と苦労した学生の間には, GenAIツールの使用が不運な部分があることが判明した。
論文 参考訳(メタデータ) (2024-05-28T01:48:28Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Seamful XAI: Operationalizing Seamful Design in Explainable AI [59.89011292395202]
AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。
本稿では, 社会工学的・インフラ的ミスマッチを明らかにすることにより, シームレスな設計がAIの説明可能性を高めることを提案する。
43人のAI実践者と実際のエンドユーザでこのプロセスを探求します。
論文 参考訳(メタデータ) (2022-11-12T21:54:05Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Learning to Play Imperfect-Information Games by Imitating an Oracle
Planner [77.67437357688316]
我々は、同時移動と大規模なステートアクションスペースでマルチプレイヤーの不完全な情報ゲームをプレイする学習を検討します。
我々のアプローチはモデルに基づく計画に基づいている。
我々は,Clash Royale と Pommerman のゲームにおいて,プランナーが効率的なプレイ戦略を発見することができることを示す。
論文 参考訳(メタデータ) (2020-12-22T17:29:57Z) - Solving The Lunar Lander Problem under Uncertainty using Reinforcement
Learning [0.0]
強化学習(Reinforcement Learning、RL)は、エージェントが不確実性のある環境をナビゲートできるようにするための機械学習の分野である。
我々はOpenAI GymのLunarLander-v2環境上で,SarsaとDeep QLearningという2つのRL技術を実装し,解析する。
論文 参考訳(メタデータ) (2020-11-24T02:35:21Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。