論文の概要: Environment Descriptions for Usability and Generalisation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.16970v1
- Date: Sun, 22 Dec 2024 11:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:42:48.201559
- Title: Environment Descriptions for Usability and Generalisation in Reinforcement Learning
- Title(参考訳): 強化学習におけるユーザビリティと一般化のための環境記述
- Authors: Dennis J. N. J. Soemers, Spyridon Samothrakis, Kurt Driessens, Mark H. M. Winands,
- Abstract要約: 本稿では、RLをより広く採用できるようにするためには、環境がユーザフレンドリーなドメイン固有言語や自然言語で記述される方法論に移行することが研究コミュニティにとって重要である、と論じる。
言語ベースの環境記述は、RLのユーザビリティの改善以外にも、価値あるコンテキストを提供し、任意の言語で記述できるすべての環境の集合の中で、訓練されたエージェントが見えない環境に一般化する能力を高める可能性がある。
- 参考スコア(独自算出の注目度): 3.1407286990734056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of current reinforcement learning (RL) research involves training and deploying agents in environments that are implemented by engineers in general-purpose programming languages and more advanced frameworks such as CUDA or JAX. This makes the application of RL to novel problems of interest inaccessible to small organisations or private individuals with insufficient engineering expertise. This position paper argues that, to enable more widespread adoption of RL, it is important for the research community to shift focus towards methodologies where environments are described in user-friendly domain-specific or natural languages. Aside from improving the usability of RL, such language-based environment descriptions may also provide valuable context and boost the ability of trained agents to generalise to unseen environments within the set of all environments that can be described in any language of choice.
- Abstract(参考訳): 現在の強化学習(RL)研究の大部分は、汎用プログラミング言語やCUDAやJAXといったより高度なフレームワークで実装された環境におけるエージェントのトレーニングとデプロイである。
これにより、RLは、工学の専門知識が不十分な小さな組織や個人にとってアクセス不可能な、新たな関心事に応用される。
本稿では、RLをより広く採用するためには、環境がユーザフレンドリーなドメイン固有言語や自然言語で記述される方法論に焦点を移すことが研究コミュニティにとって重要である、と論じる。
言語ベースの環境記述は、RLのユーザビリティの改善以外にも、価値あるコンテキストを提供し、任意の言語で記述できるすべての環境の集合の中で、訓練されたエージェントが見えない環境に一般化する能力を高める可能性がある。
関連論文リスト
- Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。
コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文 参考訳(メタデータ) (2025-10-20T17:53:23Z) - Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。
このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。
我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-10-07T17:49:24Z) - Algorithms for Adversarially Robust Deep Learning [58.656107500646364]
望ましいロバスト性を示すアルゴリズムの設計に向けた最近の進歩について論じる。
医用画像,分子識別,画像分類における最先端の一般化を実現するアルゴリズムを提案する。
我々は、堅牢な言語ベースのエージェントを設計するための進歩のフロンティアとして、新たな攻撃と防御を提案する。
論文 参考訳(メタデータ) (2025-09-23T14:48:58Z) - Multi Agent Reinforcement Learning for Sequential Satellite Assignment Problems [5.896440476510869]
割り当て問題は、エージェントのグループをタスクのグループに割り当てる古典的な最適化問題である。
衛星、電力網、移動ロボットスケジューリングといった現代の多くの応用において、割り当て問題は時間とともに展開される。
この問題にマルチエージェント強化学習を適用し、既知のRL時間グリージーソルバからのブートストラップによる代入値の学習を行う。
我々は,本アルゴリズムが理論的に正当化され,他のアルゴリズムが経験した落とし穴を回避することを実証した。
論文 参考訳(メタデータ) (2024-12-20T05:10:34Z) - Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
本稿では,GAP(Generalizable Autonomous Pentesting)フレームワークを提案する。
GAPでは、ドメインのランダム化とメタRL学習という、2つの重要な方法を備えたReal-to-Sim-to-Realパイプラインを導入している。
その結果, (a) 未知の環境における政策学習が可能であり, (b) 類似環境におけるゼロショット政策伝達を実現でき, (c) 異種環境における迅速な政策適応を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-12-05T11:24:27Z) - Eliciting Problem Specifications via Large Language Models [4.055489363682198]
大型言語モデル(LLM)は、問題クラスを半形式仕様にマッピングするために利用することができる。
認知システムは、問題空間仕様を使用して、問題クラスからの問題の複数のインスタンスを解決することができる。
論文 参考訳(メタデータ) (2024-05-20T16:19:02Z) - Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。
提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T07:31:48Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Understanding Reinforcement Learning Algorithms: The Progress from Basic
Q-learning to Proximal Policy Optimization [0.6091702876917281]
強化学習(RL)にはユニークな設定、用語、数学があり、新しい分野や人工知能を脅かすことができる。
本稿では、RLの基本原理を明確かつ簡潔に概説し、RLアルゴリズムの異なるタイプについて述べる。
論文の提示は、1980年代初頭のQ-ラーニングアルゴリズムから、TD3、PPO、オフラインRLといった最先端のアルゴリズムまで、この分野の歴史的進歩と一致している。
論文 参考訳(メタデータ) (2023-03-31T17:24:51Z) - A Tutorial on Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Generalization through Diversity: Improving Unsupervised Environment
Design [8.961693126230452]
本稿では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。
我々は,教師なし環境設計における複数の主要なアプローチと比較して,提案手法の汎用性と有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-01-19T11:55:47Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Reinforcement Learning to Solve NP-hard Problems: an Application to the
CVRP [0.0]
古典的最適化問題の解法として強化学習(Reinforcement Learning, RL)を応用した。
最も有望なRLアプローチの2つを、ベンチマークインスタンスのセットで従来の問題解決手法と比較する。
最良解を返さないにもかかわらず、RLアプローチは従来の解法よりも多くの利点があることがわかった。
論文 参考訳(メタデータ) (2022-01-14T11:16:17Z) - SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。
SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。
SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文 参考訳(メタデータ) (2021-10-20T17:02:06Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping
Pixels to Rewards [40.1007184209417]
本稿では,タスクの自然言語記述の自由度を考慮し,画素を報酬にマッピングするモデルを提案する。
メタワールドロボット操作領域の実験は、言語に基づく報酬が政策学習のサンプル効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-07-30T15:50:38Z) - WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。
この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文 参考訳(メタデータ) (2020-07-17T18:40:46Z) - Learning Reusable Options for Multi-Task Reinforcement Learning [27.864350957396322]
再利用可能な選択肢を学習することで、既存の体験を活用するためのフレームワークを提案する。
エージェントが少数の問題を解決するためのポリシーを学習した後、これらのポリシーから生成されたトラジェクトリを使って再利用可能な選択肢を学習できることを示す。
論文 参考訳(メタデータ) (2020-01-06T13:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。