論文の概要: The Sandbox Environment for Generalizable Agent Research (SEGAR)
- arxiv url: http://arxiv.org/abs/2203.10351v1
- Date: Sat, 19 Mar 2022 16:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:16:51.273136
- Title: The Sandbox Environment for Generalizable Agent Research (SEGAR)
- Title(参考訳): 汎用エージェント研究のためのサンドボックス環境
- Authors: R Devon Hjelm, Bogdan Mazoure, Florian Golemo, Felipe Frujeri, Mihai
Jalobeanu, Andrey Kolobov
- Abstract要約: 汎用エージェントリサーチ(SEGAR)のためのサンドボックス環境の構築
SEGARは対話型環境における一般化研究の容易性と説明責任を向上させる。
本稿では、SEGARの概要と、SEGARがこれらの目標にどのように貢献するか、および、SEGARが答えられるいくつかの研究課題を実証する実験を紹介する。
- 参考スコア(独自算出の注目度): 20.613492690595198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A broad challenge of research on generalization for sequential
decision-making tasks in interactive environments is designing benchmarks that
clearly landmark progress. While there has been notable headway, current
benchmarks either do not provide suitable exposure nor intuitive control of the
underlying factors, are not easy-to-implement, customizable, or extensible, or
are computationally expensive to run. We built the Sandbox Environment for
Generalizable Agent Research (SEGAR) with all of these things in mind. SEGAR
improves the ease and accountability of generalization research in RL, as
generalization objectives can be easy designed by specifying task
distributions, which in turns allows the researcher to measure the nature of
the generalization objective. We present an overview of SEGAR and how it
contributes to these goals, as well as experiments that demonstrate a few types
of research questions SEGAR can help answer.
- Abstract(参考訳): 対話環境における逐次意思決定タスクの一般化に関する研究の課題は、明らかに進歩を示すベンチマークを設計することである。
目立った道のりはあったが、現在のベンチマークでは、適切な露出や根底にある要因の直感的な制御を提供しておらず、簡単に実装でき、カスタマイズ可能で、拡張可能でもなく、計算に費用がかかる。
これらすべてを念頭に置いて,汎用エージェントリサーチ(segar)のためのサンドボックス環境を構築しました。
segar は rl における一般化研究の容易さと説明可能性を改善し、一般化の目的をタスク分布を特定することで容易に設計できるため、一般化の目的の性質を測定することができる。
本稿では、SEGARの概要と、SEGARがこれらの目標にどのように貢献するか、およびSEGARが答えられるいくつかの研究課題を示す実験を紹介する。
関連論文リスト
- The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code
Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。
既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-08T13:04:52Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Action and Perception as Divergence Minimization [43.75550755678525]
アクションパーセプション・ディバージェンス(Action Perception Divergence)は、エンボディエージェントの可能な目的関数の空間を分類するためのアプローチである。
狭い目的から一般的な目的に到達するスペクトルを示す。
これらのエージェントは、彼らの信念を世界と整合させるのに知覚を使い、行動を使って世界と信念を整合させる。
論文 参考訳(メタデータ) (2020-09-03T16:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。