論文の概要: Neural Algorithmic Reasoners are Implicit Planners
- arxiv url: http://arxiv.org/abs/2110.05442v1
- Date: Mon, 11 Oct 2021 17:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 13:10:17.085832
- Title: Neural Algorithmic Reasoners are Implicit Planners
- Title(参考訳): ニューラルネットワークによる推論は暗黙のプランナーである
- Authors: Andreea Deac, Petar Veli\v{c}kovi\'c, Ognjen Milinkovi\'c, Pierre-Luc
Bacon, Jian Tang, Mladen Nikoli\'c
- Abstract要約: 価値反復にインスパイアされた暗黙のプランナーのクラスを研究します。
提案手法は,高次元潜在空間における全ての計画計算を実行する。
XLVINsがバリューイテレーションと密接に一致できることを実証的に検証します。
- 参考スコア(独自算出の注目度): 17.6650448492151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit planning has emerged as an elegant technique for combining learned
models of the world with end-to-end model-free reinforcement learning. We study
the class of implicit planners inspired by value iteration, an algorithm that
is guaranteed to yield perfect policies in fully-specified tabular
environments. We find that prior approaches either assume that the environment
is provided in such a tabular form -- which is highly restrictive -- or infer
"local neighbourhoods" of states to run value iteration over -- for which we
discover an algorithmic bottleneck effect. This effect is caused by explicitly
running the planning algorithm based on scalar predictions in every state,
which can be harmful to data efficiency if such scalars are improperly
predicted. We propose eXecuted Latent Value Iteration Networks (XLVINs), which
alleviate the above limitations. Our method performs all planning computations
in a high-dimensional latent space, breaking the algorithmic bottleneck. It
maintains alignment with value iteration by carefully leveraging neural
graph-algorithmic reasoning and contrastive self-supervised learning. Across
eight low-data settings -- including classical control, navigation and Atari --
XLVINs provide significant improvements to data efficiency against value
iteration-based implicit planners, as well as relevant model-free baselines.
Lastly, we empirically verify that XLVINs can closely align with value
iteration.
- Abstract(参考訳): インプリシットプランニングは、世界の学習モデルとエンドツーエンドのモデルフリー強化学習を組み合わせるためのエレガントな手法として登場した。
完全に特定された表環境において、完璧なポリシーを得られることが保証されるアルゴリズムであるvalue iterationに触発された暗黙のプランナーのクラスを調査した。
従来のアプローチでは、そのような表形式で環境が提供されていると仮定するか、アルゴリズムによるボトルネック効果を発見するために、値反復を実行する状態の"ローカル近傍"を推測するかのどちらかである。
この効果は、全ての状態におけるスカラー予測に基づいて計画アルゴリズムを明示的に実行することによるものであり、そのようなスカラーが不適切に予測された場合、データ効率に悪影響を及ぼす可能性がある。
上記の制限を緩和するeXecuted Latent Value Iteration Networks (XLVINs)を提案する。
提案手法は,高次元の潜在空間で計画計算を行い,アルゴリズムのボトルネックを解消する。
ニューラルグラフアルゴリズム推論と対照的な自己教師型学習を慎重に活用することで、価値イテレーションとの整合性を維持する。
古典的なコントロール、ナビゲーション、Atari -XLVINを含む8つの低データ設定は、価値あるイテレーションベースの暗黙的なプランナに対するデータ効率を大幅に改善すると同時に、関連するモデルフリーのベースラインも提供する。
最後に、XLVINsがバリューイテレーションと密接に一致できることを実証的に検証する。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics [39.07258580928359]
線形ベルマン完全設定に対する計算的および統計的に効率的な強化学習アルゴリズムについて検討する。
この設定では線形関数近似を用いて値関数をキャプチャし、線形マルコフ決定プロセス(MDP)や線形二次レギュレータ(LQR)のような既存のモデルを統一する。
我々の研究は、線形ベルマン完全設定のための計算効率の良いアルゴリズムを提供し、大きなアクション空間、ランダムな初期状態、ランダムな報酬を持つMDPに対して機能するが、決定論的となる基礎となる力学に依存している。
論文 参考訳(メタデータ) (2024-06-17T17:52:38Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Continuous Neural Algorithmic Planners [3.9715120586766584]
XLVINは、深層強化学習エージェントの値アルゴリズムをシミュレートするグラフニューラルネットワークである。
環境に関する特権情報にアクセスせずに、モデルフリーのイテレーションプランニングを可能にする。
ニューラルネットワークによる推論が高次元連続制御設定にどのように影響するかを示す。
論文 参考訳(メタデータ) (2022-11-29T00:19:35Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Convolutional Sparse Coding Fast Approximation with Application to
Seismic Reflectivity Estimation [9.005280130480308]
2~5回の反復で畳み込みスパース符号の良好な近似を生成する古典的反復しきい値アルゴリズムの高速化版を提案する。
提案手法の性能は, 合成シナリオと実データシナリオの両方において, 地震インバージョン問題によって実証される。
論文 参考訳(メタデータ) (2021-06-29T12:19:07Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。