Fugu-MT 論文翻訳(概要): Environment Descriptions for Usability and Generalisation in Reinforcement Learning

論文の概要: Environment Descriptions for Usability and Generalisation in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2412.16970v1
Date: Sun, 22 Dec 2024 11:02:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.201559
Title: Environment Descriptions for Usability and Generalisation in Reinforcement Learning
Title（参考訳）: 強化学習におけるユーザビリティと一般化のための環境記述
Authors: Dennis J. N. J. Soemers, Spyridon Samothrakis, Kurt Driessens, Mark H. M. Winands,
Abstract要約: 本稿では、RLをより広く採用できるようにするためには、環境がユーザフレンドリーなドメイン固有言語や自然言語で記述される方法論に移行することが研究コミュニティにとって重要である、と論じる。言語ベースの環境記述は、RLのユーザビリティの改善以外にも、価値あるコンテキストを提供し、任意の言語で記述できるすべての環境の集合の中で、訓練されたエージェントが見えない環境に一般化する能力を高める可能性がある。
参考スコア（独自算出の注目度）: 3.1407286990734056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The majority of current reinforcement learning (RL) research involves training and deploying agents in environments that are implemented by engineers in general-purpose programming languages and more advanced frameworks such as CUDA or JAX. This makes the application of RL to novel problems of interest inaccessible to small organisations or private individuals with insufficient engineering expertise. This position paper argues that, to enable more widespread adoption of RL, it is important for the research community to shift focus towards methodologies where environments are described in user-friendly domain-specific or natural languages. Aside from improving the usability of RL, such language-based environment descriptions may also provide valuable context and boost the ability of trained agents to generalise to unseen environments within the set of all environments that can be described in any language of choice.
Abstract（参考訳）: 現在の強化学習(RL)研究の大部分は、汎用プログラミング言語やCUDAやJAXといったより高度なフレームワークで実装された環境におけるエージェントのトレーニングとデプロイである。これにより、RLは、工学の専門知識が不十分な小さな組織や個人にとってアクセス不可能な、新たな関心事に応用される。本稿では、RLをより広く採用するためには、環境がユーザフレンドリーなドメイン固有言語や自然言語で記述される方法論に焦点を移すことが研究コミュニティにとって重要である、と論じる。言語ベースの環境記述は、RLのユーザビリティの改善以外にも、価値あるコンテキストを提供し、任意の言語で記述できるすべての環境の集合の中で、訓練されたエージェントが見えない環境に一般化する能力を高める可能性がある。

関連論文リスト

Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
本稿では,GAP(Generalizable Autonomous Pentesting)フレームワークを提案する。 GAPでは、ドメインのランダム化とメタRL学習という、2つの重要な方法を備えたReal-to-Sim-to-Realパイプラインを導入している。その結果, (a) 未知の環境における政策学習が可能であり, (b) 類似環境におけるゼロショット政策伝達を実現でき, (c) 異種環境における迅速な政策適応を実現することができることがわかった。
論文参考訳（メタデータ） (2024-12-05T11:24:27Z)
Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文参考訳（メタデータ） (2024-04-15T07:31:48Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)
Generalization through Diversity: Improving Unsupervised Environment Design [8.961693126230452]
本稿では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。我々は,教師なし環境設計における複数の主要なアプローチと比較して,提案手法の汎用性と有効性を実証的に実証した。
論文参考訳（メタデータ） (2023-01-19T11:55:47Z)
AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文参考訳（メタデータ） (2022-08-03T22:52:26Z)
Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文参考訳（メタデータ） (2022-02-09T15:01:59Z)
SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。 SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。 SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文参考訳（メタデータ） (2021-10-20T17:02:06Z)
Scenic4RL: Programmatic Modeling and Generation of Reinforcement Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文参考訳（メタデータ） (2021-06-18T21:49:46Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping Pixels to Rewards [40.1007184209417]
本稿では,タスクの自然言語記述の自由度を考慮し,画素を報酬にマッピングするモデルを提案する。メタワールドロボット操作領域の実験は、言語に基づく報酬が政策学習のサンプル効率を大幅に改善することを示している。
論文参考訳（メタデータ） (2020-07-30T15:50:38Z)
WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文参考訳（メタデータ） (2020-07-17T18:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。