論文の概要: Differentiable Tree Search in Latent State Space
- arxiv url: http://arxiv.org/abs/2401.11660v1
- Date: Mon, 22 Jan 2024 02:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:22:08.595814
- Title: Differentiable Tree Search in Latent State Space
- Title(参考訳): 潜在状態空間における微分可能木探索
- Authors: Dixant Mittal and Wee Sun Lee
- Abstract要約: 微分可能木探索(DTS)は、誘導バイアスを大幅に強化する新しいニューラルネットワークアーキテクチャである。
本稿では,最優先のオンライン検索アルゴリズムのアルゴリズム構造を組み込むことにより,誘導バイアスを大幅に強化するニューラルネットワークアーキテクチャを提案する。
我々は,DTSをオフラインRL設定で評価し,Procgenゲームとグリッドナビゲーションタスクのトレーニングデータシナリオを限定した。
- 参考スコア(独自算出の注目度): 17.688341927195033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In decision-making problems with limited training data, policy functions
approximated using deep neural networks often exhibit suboptimal performance.
An alternative approach involves learning a world model from the limited data
and determining actions through online search. However, the performance is
adversely affected by compounding errors arising from inaccuracies in the
learnt world model. While methods like TreeQN have attempted to address these
inaccuracies by incorporating algorithmic structural biases into their
architectures, the biases they introduce are often weak and insufficient for
complex decision-making tasks. In this work, we introduce Differentiable Tree
Search (DTS), a novel neural network architecture that significantly
strengthens the inductive bias by embedding the algorithmic structure of a
best-first online search algorithm. DTS employs a learnt world model to conduct
a fully differentiable online search in latent state space. The world model is
jointly optimised with the search algorithm, enabling the learning of a robust
world model and mitigating the effect of model inaccuracies. We address
potential Q-function discontinuities arising from naive incorporation of
best-first search by adopting a stochastic tree expansion policy, formulating
search tree expansion as a decision-making task, and introducing an effective
variance reduction technique for the gradient computation. We evaluate DTS in
an offline-RL setting with a limited training data scenario on Procgen games
and grid navigation task, and demonstrate that DTS outperforms popular
model-free and model-based baselines.
- Abstract(参考訳): 訓練データに制限のある意思決定問題では、ディープニューラルネットワークを用いて近似されたポリシー関数は、しばしば準最適性能を示す。
別のアプローチでは、限られたデータから世界モデルを学び、オンライン検索を通じて行動を決定する。
しかし,学習世界モデルにおける不正確性に起因する誤りの複合化によって,パフォーマンスは悪影響を受ける。
treeqnのような手法は、それらのアーキテクチャにアルゴリズム的構造バイアスを組み込むことで、これらの不正確さに対処しようとしたが、彼らが導入するバイアスはしばしば弱く、複雑な意思決定タスクには不十分である。
本研究では,最も優れたオンライン検索アルゴリズムのアルゴリズム構造を組み込むことにより,誘導バイアスを大幅に強化するニューラルネットワークアーキテクチャである微分可能木探索(DTS)を導入する。
DTSは学習した世界モデルを用いて、潜在状態空間で完全に差別化可能なオンライン検索を行う。
世界モデルは検索アルゴリズムと共同で最適化され、ロバストな世界モデルの学習を可能にし、モデル不正確性の効果を緩和する。
本稿では、確率木拡張ポリシーを採用し、探索木拡張を意思決定タスクとして定式化し、勾配計算に有効な分散低減手法を導入することにより、最優先探索の素早い導入から生じるQ-関数の不連続性に対処する。
我々は,DTSを,ゲームやグリッドナビゲーションタスクにおいて限られたトレーニングデータシナリオでオフラインRLで評価し,DTSが一般的なモデルフリーおよびモデルベースラインより優れていることを示す。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Multigoal-oriented dual-weighted-residual error estimation using deep
neural networks [0.0]
ディープラーニングは、関数を近似する柔軟性の高い強力なツールだと考えられている。
提案手法は,誤差の局所化に付随する問題を解く後続誤差推定法に基づく。
複数のゴール関数に対する後方誤差推定を得るために,効率的で実装が容易なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-21T16:59:44Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - SpaceNet: Make Free Space For Continual Learning [15.914199054779438]
本研究では,クラスインクリメンタル学習シナリオのための新しいアーキテクチャベースのSpaceNetを提案する。
SpaceNetは、複数のニューロンで各タスクのスパース接続を圧縮する適応的な方法で、スクラッチから深層ニューラルネットワークを訓練する。
実験により,従来のタスクを忘れることに対する提案手法のロバストさと,モデルが利用可能な容量を利用する場合のSpaceNetの効率性を示す。
論文 参考訳(メタデータ) (2020-07-15T11:21:31Z) - VINNAS: Variational Inference-based Neural Network Architecture Search [2.685668802278155]
スパース畳み込みニューラルネットワークを探索するための可変変分推論に基づくNAS法を提案する。
提案手法は,非ゼロパラメータの約2倍の精度で最先端の精度を示しながら,多様なネットワークセルを探索する。
論文 参考訳(メタデータ) (2020-07-12T21:47:35Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。