Fugu-MT 論文翻訳(概要): Contextualize Me -- The Case for Context in Reinforcement Learning

論文の概要: Contextualize Me -- The Case for Context in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2202.04500v2
Date: Fri, 2 Jun 2023 15:48:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 21:27:36.121228
Title: Contextualize Me -- The Case for Context in Reinforcement Learning
Title（参考訳）: contextize me -- 強化学習におけるコンテキストのケース
Authors: Carolin Benjamins, Theresa Eimer, Frederik Schubert, Aditya Mohan, Sebastian D\"ohler, Andr\'e Biedenkapp, Bodo Rosenhahn, Frank Hutter, Marius Lindauer
Abstract要約: 文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
参考スコア（独自算出の注目度）: 49.794253971446416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Reinforcement Learning ( RL) has made great strides towards solving increasingly complicated problems, many algorithms are still brittle to even slight environmental changes. Contextual Reinforcement Learning (cRL) provides a framework to model such changes in a principled manner, thereby enabling flexible, precise and interpretable task specification and generation. Our goal is to show how the framework of cRL contributes to improving zero-shot generalization in RL through meaningful benchmarks and structured reasoning about generalization tasks. We confirm the insight that optimal behavior in cRL requires context information, as in other related areas of partial observability. To empirically validate this in the cRL framework, we provide various context-extended versions of common RL environments. They are part of the first benchmark library, CARL, designed for generalization based on cRL extensions of popular benchmarks, which we propose as a testbed to further study general agents. We show that in the contextual setting, even simple RL environments become challenging - and that naive solutions are not enough to generalize across complex context spaces.
Abstract（参考訳）: 強化学習(rl)はますます複雑な問題を解決する上で大きな一歩を踏み出したが、多くのアルゴリズムはいまだにわずかな環境変化に対して脆弱である。文脈強化学習(cRL)は、このような変化を原則的にモデル化するフレームワークを提供し、柔軟で正確で解釈可能なタスク仕様と生成を可能にする。我々の目標は、cRLのフレームワークが、意味のあるベンチマークや一般化タスクに関する構造化推論を通じて、RLのゼロショット一般化の改善にどのように貢献するかを示すことである。我々は,cRLにおける最適行動は,他の部分観測可能性の領域と同様に,文脈情報を必要とするという知見を裏付ける。 cRLフレームワークでこれを実証的に検証するために、共通RL環境の様々なコンテキスト拡張版を提供する。これらは、一般的なベンチマークのcRL拡張に基づく一般化のために設計された最初のベンチマークライブラリであるCARLの一部である。文脈設定では、単純なrl環境でさえ困難になり、ナイーブなソリューションが複雑なコンテキスト空間をまたいで一般化するには不十分であることを示している。

関連論文リスト

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
One Framework to Rule Them All: Unifying RL-Based and RL-Free Methods in RLHF [2.1212179660694104]
本稿では,RLHF(Reinforcement Learning from Human Feedback)とLRM(Large Reasoning Models)に対処するために,RLベースおよびRLフリーの手法について検討する。我々は、ニューラルネットワークによる帯域予測の観点から、いくつかのRLベースおよびRLフリーアルゴリズムを再解釈する。これにより、完全なRLコンテキスト内で標準RLHFの目的を詳細に導出し、ニューラルネットワークのバンドイット予測と等価性を示す。
論文参考訳（メタデータ） (2025-03-25T10:23:26Z)
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。 RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文参考訳（メタデータ） (2025-01-28T18:59:44Z)
Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文参考訳（メタデータ） (2024-02-04T09:58:42Z)
RL-ViGen: A Reinforcement Learning Benchmark for Visual Generalization [23.417092819516185]
視覚一般化のための強化学習ベンチマークRL-ViGenを紹介する。 RL-ViGenは多種多様なタスクと幅広い一般化型を含み、より信頼性の高い結論の導出を容易にする。我々の願望は、RL-ViGenが将来の普遍的な視覚一般化RLエージェントの創出の触媒となることである。
論文参考訳（メタデータ） (2023-07-15T05:45:37Z)
The Role of Diverse Replay for Generalisation in Reinforcement Learning [7.399291598113285]
強化学習における探索戦略とリプレイバッファが一般化に与える影響について検討する。トレーニング環境からより多様なデータの収集とトレーニングを行うことで、ゼロショットの一般化が新しいタスクに改善されることが示される。
論文参考訳（メタデータ） (2023-06-09T07:48:36Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Improving Zero-shot Generalization in Offline Reinforcement Learning using Generalized Similarity Functions [34.843526573355746]
強化学習(Reinforcement Learning, RL)エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオに一般化することが困難である。 RLにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の評価が不十分なため、オフライン環境では妨げられることを示す。本稿では, 一般化類似度関数(GSF)と呼ばれる新しい理論的動機付けフレームワークを提案する。このフレームワークは, 競合学習を用いてオフラインのRLエージェントを訓練し, 期待される将来の行動の類似性に基づいて観測を集約する。
論文参考訳（メタデータ） (2021-11-29T15:42:54Z)
CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文参考訳（メタデータ） (2021-10-05T15:04:01Z)
When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文参考訳（メタデータ） (2021-01-01T19:08:24Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。