論文の概要: Successor Feature Sets: Generalizing Successor Representations Across
Policies
- arxiv url: http://arxiv.org/abs/2103.02650v1
- Date: Wed, 3 Mar 2021 19:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:54:07.963052
- Title: Successor Feature Sets: Generalizing Successor Representations Across
Policies
- Title(参考訳): 後継機能セット:ポリシー間の後継表現の一般化
- Authors: Kiant\'e Brantley, Soroush Mehri, Geoffrey J. Gordon
- Abstract要約: 成功者スタイルの表現は強化学習に多くの利点がある。
エージェントは過去の経験から新たな目標への一般化を支援することができる。
成功者スタイルの表現は、ポリシーをまたいで一般化するために最適化されない。
- 参考スコア(独自算出の注目度): 24.00541460396812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successor-style representations have many advantages for reinforcement
learning: for example, they can help an agent generalize from past experience
to new goals, and they have been proposed as explanations of behavioral and
neural data from human and animal learners. They also form a natural bridge
between model-based and model-free RL methods: like the former they make
predictions about future experiences, and like the latter they allow efficient
prediction of total discounted rewards. However, successor-style
representations are not optimized to generalize across policies: typically, we
maintain a limited-length list of policies, and share information among them by
representation learning or GPI. Successor-style representations also typically
make no provision for gathering information or reasoning about latent
variables. To address these limitations, we bring together ideas from
predictive state representations, belief space value iteration, successor
features, and convex analysis: we develop a new, general successor-style
representation, together with a Bellman equation that connects multiple sources
of information within this representation, including different latent states,
policies, and reward functions. The new representation is highly expressive:
for example, it lets us efficiently read off an optimal policy for a new reward
function, or a policy that imitates a new demonstration. For this paper, we
focus on exact computation of the new representation in small, known
environments, since even this restricted setting offers plenty of interesting
questions. Our implementation does not scale to large, unknown environments --
nor would we expect it to, since it generalizes POMDP value iteration, which is
difficult to scale. However, we believe that future work will allow us to
extend our ideas to approximate reasoning in large, unknown environments.
- Abstract(参考訳): 例えば、エージェントが過去の経験から新しい目標へと一般化するのを手助けすることができ、人間や動物の学習者からの行動や神経データの説明として提案されている。
また、モデルベースとモデルフリーのRLメソッドの間に自然なブリッジを形成し、前者と同様に将来の経験について予測し、後者と同様に、全割引報酬の効率的な予測を可能にする。
しかし、後継スタイルの表現は、ポリシー間の一般化に最適化されていない:典型的には、ポリシーの限られたリストを保持し、表現学習やgpiによって情報を共有する。
後継スタイルの表現は、通常、潜在変数に関する情報の収集や推論を規定しない。
これらの制限に対処するために、我々は予測状態表現、信念空間値反復、後継機能、凸解析からのアイデアをまとめる:我々は、異なる潜在状態、ポリシー、報酬関数を含む、この表現内の複数の情報ソースを接続するベルマン方程式と共に、新しい一般的な後継スタイルの表現を開発する。
例えば、新しい報酬機能のための最適なポリシーや、新しいデモを模倣したポリシーを効率的に読み取ることができます。
本稿では,この制限された設定でさえ,多くの興味深い疑問をもたらすため,新しい表現を小さく,既知の環境で正確に計算することに焦点を当てる。
我々の実装は、大規模で未知の環境にスケールしません - POMDP値の反復を一般化し、スケールが難しいので、期待してもよいでしょう。
しかし、将来の作業によって、大きな未知の環境において、アイデアを近似推論に拡張できると信じています。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Look Beyond Bias with Entropic Adversarial Data Augmentation [4.893694715581673]
ディープニューラルネットワークは、スパイラルパターンと因果パターンを区別せず、他を無視しながら最も予測的なパターンのみを学ぶ。
ネットワークをこのような刺激的なバイアスに頑健にするためにデバイアス法が開発されたが、データセットがバイアスを受けているかどうかを事前に知る必要がある。
本稿では,「隠された」因果情報がバイアス画像に含まれる場合が多いため,このようなサンプルは必ずしも必要ではない,と論じる。
論文 参考訳(メタデータ) (2023-01-10T08:25:24Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing [69.80851569594924]
FAS(Generalizable Face Anti-Spoofing)は注目されている。
この作業では、完全な表現をコンテンツとスタイルに分けます。
Shuffled Style Assembly Network (SSAN) は、異なるコンテンツやスタイルの特徴を抽出し、再組み立てするために提案されている。
論文 参考訳(メタデータ) (2022-03-10T12:44:05Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Representation Learning for Out-Of-Distribution Generalization in
Reinforcement Learning [39.21650402977466]
本稿では,実世界の下流作業における学習表現の有用性を,初めて体系的に評価することを目的とする。
1万以上の強化学習政策を訓練することにより、異なる表現特性がアウト・オブ・ディストリビューションの一般化にどの程度影響するかを広範囲に評価する。
ドメインのランダム化や微調整なしにシミュレーションから実世界へのポリシーのゼロショット転送を実証する。
論文 参考訳(メタデータ) (2021-07-12T18:49:48Z) - Towards Better Laplacian Representation in Reinforcement Learning with
Generalized Graph Drawing [88.22538267731733]
ラプラシアン表現は、状態に対する簡潔で情報的な表現を提供する。
近年の研究はスペクトルグラフ描画の目的を最小化することを提案しているが、固有ベクトル以外の大域最小化器は無限に多数存在する。
学習したラプラシア表現がより探索的な選択肢とより良い報酬形成をもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-12T16:14:02Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - Latent Representation Prediction Networks [0.0]
満足できない表現を学習するこの原則を見いだす。
本稿では,この表現を予測関数とともに学習する新しい方法を提案する。
提案手法は, 標準強化学習法よりもサンプリング効率がよいことを示す。
論文 参考訳(メタデータ) (2020-09-20T14:26:03Z) - Contextualizing Enhances Gradient Based Meta Learning [7.009032627535598]
本稿では,メタラーニング手法を文脈解析器と組み合わせることで,いくつかのショットラーニングデータセットの性能を著しく向上させることができることを示す。
オーバーフィットすることなくパラメータを更新することが困難である低データ環境に対して,我々のアプローチは特に適しています。
論文 参考訳(メタデータ) (2020-07-17T04:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。