論文の概要: Proper Laplacian Representation Learning
- arxiv url: http://arxiv.org/abs/2310.10833v1
- Date: Mon, 16 Oct 2023 21:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 19:09:31.374269
- Title: Proper Laplacian Representation Learning
- Title(参考訳): 適切なラプラシアン表現学習
- Authors: Diego Gomez, Michael Bowling, Marlos C. Machado
- Abstract要約: ラプラシアン表現を近似するための理論的に健全な目的とそれに対応する最適化アルゴリズムを導入する。
これらの結果は,複数の環境にまたがる堅牢な学習に実証的に変換されることを示す。
- 参考スコア(独自算出の注目度): 17.42966166938087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to learn good representations of states is essential for solving
large reinforcement learning problems, where exploration, generalization, and
transfer are particularly challenging. The Laplacian representation is a
promising approach to address these problems by inducing intrinsic rewards for
temporally-extended action discovery and reward shaping, and informative state
encoding. To obtain the Laplacian representation one needs to compute the
eigensystem of the graph Laplacian, which is often approximated through
optimization objectives compatible with deep learning approaches. These
approximations, however, depend on hyperparameters that are impossible to tune
efficiently, converge to arbitrary rotations of the desired eigenvectors, and
are unable to accurately recover the corresponding eigenvalues. In this paper
we introduce a theoretically sound objective and corresponding optimization
algorithm for approximating the Laplacian representation. Our approach
naturally recovers both the true eigenvectors and eigenvalues while eliminating
the hyperparameter dependence of previous approximations. We provide
theoretical guarantees for our method and we show that those results translate
empirically into robust learning across multiple environments.
- Abstract(参考訳): 国家の優れた表現を学ぶ能力は、探索、一般化、移動が特に困難な大規模な強化学習問題の解決に不可欠である。
ラプラシアン表現は、時間的に拡張された行動発見と報酬形成のための内在的な報酬を誘導し、情報的な状態エンコーディングを行うことで、これらの問題に対処する有望なアプローチである。
ラプラシアン表現を得るためには、グラフラプラシアンの固有系を計算する必要がある。
しかし、これらの近似は効率的にチューニングできないハイパーパラメータに依存し、所望の固有ベクトルの任意の回転に収束し、対応する固有値を正確に回復できない。
本稿では,ラプラシアン表現を近似するための理論的に適切な目的と対応する最適化アルゴリズムを提案する。
提案手法は, 固有ベクトルと固有値の両方を自然に回収し, 従来の近似のハイパーパラメータ依存を除去する。
提案手法を理論的に保証し,実験によって複数の環境にまたがる堅牢な学習に変換することを示す。
関連論文リスト
- Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - Disentanglement with Factor Quantized Variational Autoencoders [11.086500036180222]
本稿では,生成因子に関する基礎的真理情報をモデルに提供しない離散変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 離散表現を学習する上で, 連続表現を学習することの利点を実証する。
FactorQVAEと呼ばれる手法は,最適化に基づく不整合アプローチと離散表現学習を組み合わせた最初の手法である。
論文 参考訳(メタデータ) (2024-09-23T09:33:53Z) - An Inexact Halpern Iteration with Application to Distributionally Robust
Optimization [9.529117276663431]
決定論的および決定論的収束設定におけるスキームの不正確な変種について検討する。
不正確なスキームを適切に選択することにより、(予想される)剰余ノルムの点において$O(k-1)収束率を許容することを示す。
論文 参考訳(メタデータ) (2024-02-08T20:12:47Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Generalization Properties of Stochastic Optimizers via Trajectory
Analysis [48.38493838310503]
本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
論文 参考訳(メタデータ) (2021-08-02T10:58:32Z) - Loss Bounds for Approximate Influence-Based Abstraction [81.13024471616417]
影響に基づく抽象化は、システムの残りの部分が与える「影響」とともに、局所的なサブプロブレムをモデル化することでレバレッジを得ることを目的としている。
本稿では,理論的観点から,そのような手法の性能について考察する。
交叉エントロピーで訓練されたニューラルネットワークは、近似的な影響表現を学習するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-03T15:33:10Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。