論文の概要: On the Practical Consistency of Meta-Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2112.00478v1
- Date: Wed, 1 Dec 2021 13:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:31:23.580986
- Title: On the Practical Consistency of Meta-Reinforcement Learning Algorithms
- Title(参考訳): メタ強化学習アルゴリズムの実践的整合性について
- Authors: Zheng Xiong, Luisa Zintgraf, Jacob Beck, Risto Vuorio, Shimon Whiteson
- Abstract要約: 理論的に整合性のあるアルゴリズムは、通常、アウト・オブ・ディストリビューション(OOD)タスクに適応できるが、一貫性のないアルゴリズムは適用できない。
理論的整合性は確かに望ましい性質であり、矛盾したメタRLアルゴリズムは、同じ利点を享受するために容易に一貫性を持たせることができると結論付けている。
- 参考スコア(独自算出の注目度): 43.34944772152762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistency is the theoretical property of a meta learning algorithm that
ensures that, under certain assumptions, it can adapt to any task at test time.
An open question is whether and how theoretical consistency translates into
practice, in comparison to inconsistent algorithms. In this paper, we
empirically investigate this question on a set of representative meta-RL
algorithms. We find that theoretically consistent algorithms can indeed usually
adapt to out-of-distribution (OOD) tasks, while inconsistent ones cannot,
although they can still fail in practice for reasons like poor exploration. We
further find that theoretically inconsistent algorithms can be made consistent
by continuing to update all agent components on the OOD tasks, and adapt as
well or better than originally consistent ones. We conclude that theoretical
consistency is indeed a desirable property, and inconsistent meta-RL algorithms
can easily be made consistent to enjoy the same benefits.
- Abstract(参考訳): 一貫性はメタ学習アルゴリズムの理論的性質であり、特定の仮定の下では、テスト時に任意のタスクに適応できることを保証する。
オープンな問題は、矛盾するアルゴリズムと比較して、理論的な一貫性が実際にどのように変換されるかである。
本稿では,代表的メタRLアルゴリズムを用いて,この問題を経験的に検討する。
理論的に整合性のあるアルゴリズムは、通常、オフ・オブ・ディストリビューション(OOD)タスクに適応できるが、一貫性のないアルゴリズムはできない。
さらに、OODタスクのすべてのエージェントコンポーネントを更新し続けることで、理論的に一貫性のないアルゴリズムを一貫性のあるものにすることができる。
理論的整合性は確かに望ましい性質であり、矛盾したメタRLアルゴリズムは、同じ利点を享受するために容易に一貫性を持たせることができる。
関連論文リスト
- Deep Equilibrium Algorithmic Reasoning [18.651333116786084]
我々は異なる観点からニューラルネットワークの解法を研究する。
アルゴリズムの解はしばしば平衡であるため、平衡方程式を解くことによって直接解を見つけることができる。
我々のアプローチでは、列車とテスト時間の両方において、アルゴリズムの実際のステップ数に関する情報を必要としない。
論文 参考訳(メタデータ) (2024-10-19T10:40:55Z) - No Compromise in Solution Quality: Speeding Up Belief-dependent Continuous POMDPs via Adaptive Multilevel Simplification [6.300736240833814]
一般的な信念に依存した報酬を持つ継続的POMDPは、オンラインでの解決が難しいことで知られている。
与えられた外部構築された信条木の設定に対する適応的多レベル単純化の完全証明可能な理論を提案する。
我々は,信念に依存した報酬で,POMDPのオンラインプランニングを高速化する3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T10:59:22Z) - Robust Offline Reinforcement Learning -- Certify the Confidence Interval [15.464948077412025]
ランダムな平滑化でオフラインでポリシーのロバスト性を証明するためのアルゴリズムを開発する。
異なる環境における実験により,アルゴリズムの正確性が確認された。
論文 参考訳(メタデータ) (2023-09-28T17:37:01Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Towards Scaling Difference Target Propagation by Learning Backprop
Targets [64.90165892557776]
Different Target Propagationは,Gauss-Newton(GN)最適化と密接な関係を持つ生物学的に証明可能な学習アルゴリズムである。
本稿では、DTPがBPを近似し、階層的なフィードバックウェイトトレーニングを復元できる新しいフィードバックウェイトトレーニング手法を提案する。
CIFAR-10 と ImageNet 上で DTP が達成した最高の性能について報告する。
論文 参考訳(メタデータ) (2022-01-31T18:20:43Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - Rethinking and Reweighting the Univariate Losses for Multi-Label
Ranking: Consistency and Generalization [44.73295800450414]
(部分)ランキング損失は、マルチラベル分類の一般的な評価尺度です。
既存の理論と実践の間にはギャップがある -- ペアワイズな損失は有望なパフォーマンスをもたらすが一貫性を欠く可能性がある。
論文 参考訳(メタデータ) (2021-05-10T09:23:27Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Learning to Actively Learn: A Robust Approach [22.75298609290053]
本研究では,アクティブラーニングや純粋探索型マルチアームバンディットといった適応データ収集タスクのアルゴリズム設計手法を提案する。
我々の適応アルゴリズムは、情報理論の下界から導かれる問題の同値クラスに対する逆学習によって学習される。
我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,実データから導出される課題について評価する。
論文 参考訳(メタデータ) (2020-10-29T06:48:22Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。