論文の概要: microPhantom: Playing microRTS under uncertainty and chaos
- arxiv url: http://arxiv.org/abs/2005.11019v2
- Date: Wed, 17 Jun 2020 03:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:16:03.620833
- Title: microPhantom: Playing microRTS under uncertainty and chaos
- Title(参考訳): microphantom: 不確実性とカオス下でmicrortsをプレイする
- Authors: Florian Richoux
- Abstract要約: このコンペティション論文は、microRTSをプレイするボットであるmicroPhantomを提示する。
MicroPhantomは、2018年と2019年のmicroRTS AIコンペティションの、部分的に観測可能なトラックを獲得した、私たちの以前のボットPOAdaptiveをベースにしています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This competition paper presents microPhantom, a bot playing microRTS and
participating in the 2020 microRTS AI competition. microPhantom is based on our
previous bot POAdaptive which won the partially observable track of the 2018
and 2019 microRTS AI competitions. In this paper, we focus on decision-making
under uncertainty, by tackling the Unit Production Problem with a method based
on a combination of Constraint Programming and decision theory. We show that
using our method to decide which units to train improves significantly the win
rate against the second-best microRTS bot from the partially observable track.
We also show that our method is resilient in chaotic environments, with a very
small loss of efficiency only. To allow replicability and to facilitate further
research, the source code of microPhantom is available, as well as the
Constraint Programming toolkit it uses.
- Abstract(参考訳): このコンペティションペーパーでは、microRTSをプレイするボットであるmicroPhantomを紹介し、2020年のmicroRTS AIコンペティションに参加する。
MicroPhantomは、2018年と2019年のmicroRTS AIコンペティションの部分的に観測可能なトラックを獲得した、私たちの以前のボットPOAdaptiveをベースにしています。
本稿では,制約プログラミングと意思決定理論を組み合わせた手法を用いてユニット生産問題に取り組むことにより,不確実な意思決定に焦点を当てる。
本手法を用いることで,観察可能なトラックからの2番目に高いマイクロRTSボットに対する勝利率が大幅に向上することを示す。
また,本手法はカオス環境では回復力があり,効率の低下が極めて少ないことを示す。
再現性とさらなる研究を容易にするため、microphantomのソースコードと、使用する制約プログラミングツールキットが利用可能である。
関連論文リスト
- Training on the Fly: On-device Self-supervised Learning aboard Nano-drones within 20 mW [52.280742520586756]
ナノドローンのような小さな機械学習(TinyML)を利用した小型サイバー物理システム(CPS)は、ますます魅力的な技術になりつつある。
単純な電子回路はこれらのCPSを安価にすることができるが、計算、メモリ、センサーの資源を著しく制限する。
本稿では,ナノドロンの限られた超低消費電力資源にのみ依存する,オンデバイスファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-06T13:11:36Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - MEMTRACK: A Deep Learning-Based Approach to Microrobot Tracking in Dense
and Low-Contrast Environments [4.638136711579875]
Motion Enhanced Multi-level Tracker (MEMTrack) はマイクロロボットを検知・追跡するための堅牢なパイプラインである。
菌体マイクロモーターを用いてコラーゲン(tissue phantom)の試験を行い,コラーゲンおよび水性培地で試験した。
MEMTrackは、精巧に生産された手動追跡データと統計的に有意な差がなく、平均細菌の速度を定量化することができる。
論文 参考訳(メタデータ) (2023-10-13T23:21:32Z) - Navigation of micro-robot swarms for targeted delivery using
reinforcement learning [0.0]
Inforcement Learning (RL) アルゴリズムをPPO(Proximal Policy Optimization) とRPO(Robust Policy Optimization) を用いて,4,9,16マイクロスウィマーの群を探索する。
PPOとRPOの両方のパフォーマンスを、限られた状態情報シナリオで調べ、また、ランダムな目標位置とサイズに対するロバスト性をテストする。
論文 参考訳(メタデータ) (2023-06-30T12:17:39Z) - Programmable Control of Ultrasound Swarmbots through Reinforcement
Learning [0.0]
マイクロバブルをベースとした音響駆動型マイクロロボットナビゲーションは、薬物の配送を狙う上で有望なアプローチである。
我々は、強化学習制御戦略を用いて、マイクロロボットの力学を学習し、音響力で操作する。
その結果,マイクロ流体環境下でのマイクロバブルの自律的音響ナビゲーションが実証された。
論文 参考訳(メタデータ) (2022-09-30T11:46:12Z) - Runtime Analysis of Restricted Tournament Selection for Bimodal
Optimisation [0.0]
本稿では,制限されたトーナメント選択(RTS)をEA(mu$+1)に埋め込んだ,厳密な実行時解析について述べる。
ウィンドウサイズ$w$が十分大きい場合、RTSが$rm T Small WOM Small AX$ で両方のオプティマを効率的に見つけることを証明します。
我々は,トーナメント・エンハンスアウトの個人を選抜するRTSの変種を考える。それはより多様なトーナメントを生み出し,一方のニッチが他方のニッチを乗っ取るのを防ぐのに効果的である。
論文 参考訳(メタデータ) (2022-01-17T15:57:22Z) - MimicBot: Combining Imitation and Reinforcement Learning to win in Bot
Bowl [1.7259824817932292]
本稿では,Bot Bowl IIIコンペティションに参加したFantasy Football AIでプレイするように訓練されたハイブリッドエージェントについて述べる。
MimicBotは、特別に設計されたディープポリシーネットワークを使用して実装され、模倣と強化学習の組み合わせを使って訓練される。
MimicBotはBot Bowl IIIコンペティションの勝者であり、現在最先端のソリューションである。
論文 参考訳(メタデータ) (2021-08-21T09:48:08Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors [62.9301667732188]
我々は,MineRLコンペティションの第2イテレーションを提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用できるアルゴリズムの開発を促進することです。
コンペティションは、データセットと環境のペアバージョンが複数提供される2ラウンドで構成されている。
各ラウンドの終わりに、競合他社はコンテナ化された学習アルゴリズムをaicrowdプラットフォームに提出する。
論文 参考訳(メタデータ) (2021-01-26T20:32:30Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。