論文の概要: Representation and Invariance in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.07752v1
- Date: Tue, 14 Dec 2021 21:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 13:59:26.010689
- Title: Representation and Invariance in Reinforcement Learning
- Title(参考訳): 強化学習における表現と不変性
- Authors: Samuel Alexander, Arthur Paul Pedersen
- Abstract要約: 異なるグループは異なる方法で強化学習を定式化する。
このような写像に対する妥当性の基準は、相対的な知性を維持することである。
本稿では,この妥当性基準の定式化と特性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If we changed the rules, would the wise trade places with the fools?
Different groups formalize reinforcement learning (RL) in different ways. If an
agent in one RL formalization is to run within another RL formalization's
environment, the agent must first be converted, or mapped. A criterion of
adequacy for any such mapping is that it preserves relative intelligence. This
paper investigates the formulation and properties of this criterion of
adequacy. However, prior to the problem of formulation is, we argue, the
problem of comparative intelligence. We compare intelligence using
ultrafilters, motivated by viewing agents as candidates in intelligence
elections where voters are environments. These comparators are
counterintuitive, but we prove an impossibility theorem about RL intelligence
measurement, suggesting such counterintuitions are unavoidable. Given a mapping
between RL frameworks, we establish sufficient conditions to ensure that, for
any ultrafilter-based intelligence comparator in the destination framework,
there exists an ultrafilter-based intelligence comparator in the source
framework such that the mapping preserves relative intelligence. We consider
three concrete mappings between various RL frameworks and show that they
satisfy these sufficient conditions and therefore preserve suitably-measured
relative intelligence.
- Abstract(参考訳): もしルールを変更したら、賢者は愚か者と取引するだろうか?
異なるグループは異なる方法で強化学習(RL)を定式化する。
あるRL形式化のエージェントが別のRL形式化の環境内で実行される場合、エージェントは変換されるか、マッピングされる必要がある。
そのような写像に対する適切性の基準は、相対的知性を保つことである。
本稿では,この妥当性基準の定式化と特性について検討する。
しかし、定式化の問題の前には、比較知性の問題が議論されている。
我々は、有権者が環境である知能選挙の候補者として、観察エージェントによって動機付けられた超フィルターを用いたインテリジェンスを比較する。
これらのコンパレータは直観に反するが、RLインテリジェンス測定に関する不可能な定理を証明し、そのような直観は避けられないことを示唆する。
RLフレームワーク間のマッピングを前提として,宛先フレームワーク内の超フィルタベースのインテリジェンスコンパレータに対して,そのマッピングが相対的なインテリジェンスを保持するように,ソースフレームワーク内にウルトラフィルタベースのインテリジェンスコンパレータが存在することを保証する。
種々のRLフレームワーク間の3つの具体的なマッピングを検討し、それらが十分な条件を満たすことを示す。
関連論文リスト
- Bridging Swarm Intelligence and Reinforcement Learning [13.347362865770279]
スワーミング(SI)は、単純な個人の大きなグループがどのようにして複雑な行動を生み出すかを探求する。
我々は,多武装バンディット問題におけるCDMと単エージェント強化学習(RL)の理論的,経験的等価性を実証する。
論文 参考訳(メタデータ) (2024-10-23T02:49:37Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Bridging RL Theory and Practice with the Effective Horizon [18.706109961534676]
先行境界は、深いRLが成功するか失敗するかは相関しないことを示す。
我々はこれを、有効地平線と呼ぶ新しいMDPの複雑さ尺度に一般化する。
また,既存の境界と異なり,実効地平線は報酬形成や事前訓練された探査政策を用いることの効果を予測できることがわかった。
論文 参考訳(メタデータ) (2023-04-19T17:59:01Z) - Universal Agent Mixtures and the Geometry of Intelligence [13.770740044487317]
重み付き混合操作を導入することにより,理論的普遍エージェントの集合的知的挙動を検証した。
本研究では,RLエージェント・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(RLエージェント・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス
論文 参考訳(メタデータ) (2023-02-13T04:02:53Z) - Multi Agent Path Finding using Evolutionary Game Theory [0.22843885788439797]
従来知られていなかった環境をナビゲートする一組の均質・自律的なエージェントに対する経路探索の問題点を考察する。
私たちの解決策は、進化ゲーム理論、つまり、うまく機能するポリシーを複製し、そうでないポリシーを減少させる考え方に基づいている。
我々は、我々が学習する政策が進化的に安定しており、それゆえに他の政策による侵略に迫っていることを実証的に証明する。
論文 参考訳(メタデータ) (2022-12-05T03:46:06Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。