論文の概要: AMaze: An intuitive benchmark generator for fast prototyping of generalizable agents
- arxiv url: http://arxiv.org/abs/2411.13072v1
- Date: Wed, 20 Nov 2024 06:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:09.070684
- Title: AMaze: An intuitive benchmark generator for fast prototyping of generalizable agents
- Title(参考訳): AMaze: 汎用エージェントの高速プロトタイピングのための直感的なベンチマークジェネレータ
- Authors: Kevin Godin-Dubois, Karine Miras, Anna V. Kononova,
- Abstract要約: AMazeは,任意の複雑度と誤認の視覚的兆候を解釈することで,エージェントが迷路をナビゲートしなければならない,新しいベンチマークジェネレータである。
概念実証として,認識性に制限のある単純かつ完全に離散的なケースにおいて,ジェネレータの能力を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Traditional approaches to training agents have generally involved a single, deterministic environment of minimal complexity to solve various tasks such as robot locomotion or computer vision. However, agents trained in static environments lack generalization capabilities, limiting their potential in broader scenarios. Thus, recent benchmarks frequently rely on multiple environments, for instance, by providing stochastic noise, simple permutations, or altogether different settings. In practice, such collections result mainly from costly human-designed processes or the liberal use of random number generators. In this work, we introduce AMaze, a novel benchmark generator in which embodied agents must navigate a maze by interpreting visual signs of arbitrary complexities and deceptiveness. This generator promotes human interaction through the easy generation of feature-specific mazes and an intuitive understanding of the resulting agents' strategies. As a proof-of-concept, we demonstrate the capabilities of the generator in a simple, fully discrete case with limited deceptiveness. Agents were trained under three different regimes (one-shot, scaffolding, interactive), and the results showed that the latter two cases outperform direct training in terms of generalization capabilities. Indeed, depending on the combination of generalization metric, training regime, and algorithm, the median gain ranged from 50% to 100% and maximal performance was achieved through interactive training, thereby demonstrating the benefits of a controllable human-in-the-loop benchmark generator.
- Abstract(参考訳): 従来の訓練エージェントのアプローチでは、ロボットの移動やコンピュータビジョンといった様々なタスクを解決するために、最小限の複雑さの単一決定論的環境が一般的である。
しかし、静的環境で訓練されたエージェントは一般化能力に欠け、より広いシナリオでその可能性を制限する。
したがって、最近のベンチマークでは、確率的ノイズ、単純な置換、全く異なる設定を提供することによって、複数の環境に頻繁に依存している。
実際には、このようなコレクションは主に人為的に設計されたコストのかかるプロセスやランダムナンバージェネレータのリベラルな使用によるものである。
本研究では,任意の複雑度と誤認の視覚的兆候を解釈することにより,エージェントが迷路をナビゲートしなければならない新しいベンチマークジェネレータであるAMazeを紹介する。
このジェネレータは、特徴特異的迷路の容易な生成と、結果として生じるエージェントの戦略の直感的な理解を通じて、人間の相互作用を促進する。
概念実証として,認識性に制限のある単純かつ完全に離散的なケースにおいて,ジェネレータの能力を実証する。
エージェントは3つの異なる体制(ワンショット,足場,インタラクティブ)で訓練され,後者の2例は一般化能力において直接訓練よりも優れていた。
実際、一般化基準、トレーニング体制、アルゴリズムの組み合わせにより、中央値の利得は50%から100%まで、最大値の利得は対話的なトレーニングによって達成され、制御可能な人型ベンチマークジェネレータの利点が示された。
関連論文リスト
- Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Evolving Hierarchical Memory-Prediction Machines in Multi-Task
Reinforcement Learning [4.030910640265943]
行動エージェントは、時間とともに様々な環境や目的にまたがって一般化されなければならない。
遺伝的プログラミングを用いて、制御文献から6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。
進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-23T21:34:32Z) - An Ensemble with Shared Representations Based on Convolutional Networks
for Continually Learning Facial Expressions [19.72032908764253]
アンサンブル予測による半教師付き学習は、人間とロボットの相互作用中に不規則な表情の高い露出を利用するための効率的な戦略です。
伝統的なアンサンブルベースのシステムは、高い冗長性につながる複数の独立した分類器で構成されています。
提案手法は, 異なるデータ分布から抽出したアンサンブルサンプルを用いて, 表情を連続的に学習できることを示す。
論文 参考訳(メタデータ) (2021-03-05T20:40:52Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。