Fugu-MT 論文翻訳(概要): A Research Agenda for Usability and Generalisation in Reinforcement Learning

論文の概要: A Research Agenda for Usability and Generalisation in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2412.16970v2
Date: Sun, 10 Aug 2025 19:30:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 16:55:51.469859
Title: A Research Agenda for Usability and Generalisation in Reinforcement Learning
Title（参考訳）: 強化学習におけるユーザビリティと一般化に関する研究
Authors: Dennis J. N. J. Soemers, Spyridon Samothrakis, Kurt Driessens, Mark H. M. Winands,
Abstract要約: ユーザフレンドリーな記述言語を問題記述に活用することを中心に研究課題を提唱する。本稿では,問題記述のためのユーザフレンドリな記述言語の利用を中心に研究課題を提起する。
参考スコア（独自算出の注目度）: 3.1407286990734056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is common practice in reinforcement learning (RL) research to train and deploy agents in bespoke simulators, typically implemented by engineers directly in general-purpose programming languages or hardware acceleration frameworks such as CUDA or JAX. This means that programming and engineering expertise is not only required to develop RL algorithms, but is also required to use already developed algorithms for novel problems. The latter poses a problem in terms of the usability of RL, in particular for private individuals and small organisations without substantial engineering expertise. We also perceive this as a challenge for effective generalisation in RL, in the sense that is no standard, shared formalism in which different problems are represented. As we typically have no consistent representation through which to provide information about any novel problem to an agent, our agents also cannot instantly or rapidly generalise to novel problems. In this position paper, we advocate for a research agenda centred around the use of user-friendly description languages for describing problems, such that (i) users with little to no engineering expertise can formally describe the problems they would like to be tackled by RL algorithms, and (ii) algorithms can leverage problem descriptions to effectively generalise among all problems describable in the language of choice.
Abstract（参考訳）: 強化学習(RL)研究において、エージェントの訓練とデプロイを行うのが一般的であり、一般的にはエンジニアが汎用プログラミング言語やCUDAやJAXなどのハードウェアアクセラレーションフレームワークで直接実装する。これは、プログラミングとエンジニアリングの専門知識がRLアルゴリズムの開発に必要であるだけでなく、新しい問題のために既に開発されたアルゴリズムを使用することも必要であることを意味する。後者は、特に工学的な専門知識のない個人や小さな組織において、RLのユーザビリティの観点から問題を引き起こします。我々はまた、異なる問題を表わす共有形式主義が標準ではないという意味で、RLにおける効果的な一般化の挑戦として、これを認識している。通常、エージェントに新しい問題に関する情報を提供する一貫した表現がないため、エージェントは即座にあるいは迅速に新しい問題に一般化することができない。本稿では,問題記述のためのユーザフレンドリな記述言語の利用を中心にした研究課題を提唱する。 (i)工学の専門知識がほとんどないユーザは、RLアルゴリズムで取り組んだい問題を正式に記述することができ、 (II)アルゴリズムは問題記述を利用して、選択言語で記述可能なすべての問題に効果的に一般化することができる。

関連論文リスト

Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
本稿では,GAP(Generalizable Autonomous Pentesting)フレームワークを提案する。 GAPでは、ドメインのランダム化とメタRL学習という、2つの重要な方法を備えたReal-to-Sim-to-Realパイプラインを導入している。その結果, (a) 未知の環境における政策学習が可能であり, (b) 類似環境におけるゼロショット政策伝達を実現でき, (c) 異種環境における迅速な政策適応を実現することができることがわかった。
論文参考訳（メタデータ） (2024-12-05T11:24:27Z)
Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文参考訳（メタデータ） (2024-04-15T07:31:48Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)
Generalization through Diversity: Improving Unsupervised Environment Design [8.961693126230452]
本稿では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。我々は,教師なし環境設計における複数の主要なアプローチと比較して,提案手法の汎用性と有効性を実証的に実証した。
論文参考訳（メタデータ） (2023-01-19T11:55:47Z)
AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文参考訳（メタデータ） (2022-08-03T22:52:26Z)
Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文参考訳（メタデータ） (2022-02-09T15:01:59Z)
SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。 SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。 SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文参考訳（メタデータ） (2021-10-20T17:02:06Z)
Scenic4RL: Programmatic Modeling and Generation of Reinforcement Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文参考訳（メタデータ） (2021-06-18T21:49:46Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping Pixels to Rewards [40.1007184209417]
本稿では,タスクの自然言語記述の自由度を考慮し,画素を報酬にマッピングするモデルを提案する。メタワールドロボット操作領域の実験は、言語に基づく報酬が政策学習のサンプル効率を大幅に改善することを示している。
論文参考訳（メタデータ） (2020-07-30T15:50:38Z)
WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文参考訳（メタデータ） (2020-07-17T18:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。