論文の概要: Neural Algorithmic Reasoners are Implicit Planners
- arxiv url: http://arxiv.org/abs/2110.05442v1
- Date: Mon, 11 Oct 2021 17:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 13:10:17.085832
- Title: Neural Algorithmic Reasoners are Implicit Planners
- Title(参考訳): ニューラルネットワークによる推論は暗黙のプランナーである
- Authors: Andreea Deac, Petar Veli\v{c}kovi\'c, Ognjen Milinkovi\'c, Pierre-Luc
Bacon, Jian Tang, Mladen Nikoli\'c
- Abstract要約: 価値反復にインスパイアされた暗黙のプランナーのクラスを研究します。
提案手法は,高次元潜在空間における全ての計画計算を実行する。
XLVINsがバリューイテレーションと密接に一致できることを実証的に検証します。
- 参考スコア(独自算出の注目度): 17.6650448492151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit planning has emerged as an elegant technique for combining learned
models of the world with end-to-end model-free reinforcement learning. We study
the class of implicit planners inspired by value iteration, an algorithm that
is guaranteed to yield perfect policies in fully-specified tabular
environments. We find that prior approaches either assume that the environment
is provided in such a tabular form -- which is highly restrictive -- or infer
"local neighbourhoods" of states to run value iteration over -- for which we
discover an algorithmic bottleneck effect. This effect is caused by explicitly
running the planning algorithm based on scalar predictions in every state,
which can be harmful to data efficiency if such scalars are improperly
predicted. We propose eXecuted Latent Value Iteration Networks (XLVINs), which
alleviate the above limitations. Our method performs all planning computations
in a high-dimensional latent space, breaking the algorithmic bottleneck. It
maintains alignment with value iteration by carefully leveraging neural
graph-algorithmic reasoning and contrastive self-supervised learning. Across
eight low-data settings -- including classical control, navigation and Atari --
XLVINs provide significant improvements to data efficiency against value
iteration-based implicit planners, as well as relevant model-free baselines.
Lastly, we empirically verify that XLVINs can closely align with value
iteration.
- Abstract(参考訳): インプリシットプランニングは、世界の学習モデルとエンドツーエンドのモデルフリー強化学習を組み合わせるためのエレガントな手法として登場した。
完全に特定された表環境において、完璧なポリシーを得られることが保証されるアルゴリズムであるvalue iterationに触発された暗黙のプランナーのクラスを調査した。
従来のアプローチでは、そのような表形式で環境が提供されていると仮定するか、アルゴリズムによるボトルネック効果を発見するために、値反復を実行する状態の"ローカル近傍"を推測するかのどちらかである。
この効果は、全ての状態におけるスカラー予測に基づいて計画アルゴリズムを明示的に実行することによるものであり、そのようなスカラーが不適切に予測された場合、データ効率に悪影響を及ぼす可能性がある。
上記の制限を緩和するeXecuted Latent Value Iteration Networks (XLVINs)を提案する。
提案手法は,高次元の潜在空間で計画計算を行い,アルゴリズムのボトルネックを解消する。
ニューラルグラフアルゴリズム推論と対照的な自己教師型学習を慎重に活用することで、価値イテレーションとの整合性を維持する。
古典的なコントロール、ナビゲーション、Atari -XLVINを含む8つの低データ設定は、価値あるイテレーションベースの暗黙的なプランナに対するデータ効率を大幅に改善すると同時に、関連するモデルフリーのベースラインも提供する。
最後に、XLVINsがバリューイテレーションと密接に一致できることを実証的に検証する。
関連論文リスト
- Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient
Kernels [60.35011738807833]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は、ベンチマークODEとPDE発見タスクのリストにおいて、KBASSの顕著な利点を示す。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Continuous Neural Algorithmic Planners [3.9715120586766584]
XLVINは、深層強化学習エージェントの値アルゴリズムをシミュレートするグラフニューラルネットワークである。
環境に関する特権情報にアクセスせずに、モデルフリーのイテレーションプランニングを可能にする。
ニューラルネットワークによる推論が高次元連続制御設定にどのように影響するかを示す。
論文 参考訳(メタデータ) (2022-11-29T00:19:35Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Convolutional Sparse Coding Fast Approximation with Application to
Seismic Reflectivity Estimation [9.005280130480308]
2~5回の反復で畳み込みスパース符号の良好な近似を生成する古典的反復しきい値アルゴリズムの高速化版を提案する。
提案手法の性能は, 合成シナリオと実データシナリオの両方において, 地震インバージョン問題によって実証される。
論文 参考訳(メタデータ) (2021-06-29T12:19:07Z) - Neural Weighted A*: Learning Graph Costs and Heuristics with
Differentiable Anytime A* [12.117737635879037]
データ駆動計画に関する最近の研究は、コスト関数またはプランナ関数を学習することを目的としているが、両方ではない。
グラフコストやプランナーとして、平面マップの表現を改善することができる差別化可能ないつでもプランナであるNeural Weighted A*を提案します。
我々は,複数のベースラインに対して神経重み付きa*をテストし,新たなタイルベースのナビゲーションデータセットを導入することで,クレームの妥当性を実験的に示す。
論文 参考訳(メタデータ) (2021-05-04T13:17:30Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。