論文の概要: Differentiable Tree Search Network
- arxiv url: http://arxiv.org/abs/2401.11660v2
- Date: Fri, 2 Aug 2024 07:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:33:20.436161
- Title: Differentiable Tree Search Network
- Title(参考訳): 微分可能木探索網
- Authors: Dixant Mittal, Wee Sun Lee,
- Abstract要約: 微分可能木探索ネットワーク(D-TSN)は、誘導バイアスを大幅に強化する新しいニューラルネットワークアーキテクチャである。
D-TSNは、完全に差別化可能なオンライン検索を行うために、学習された世界モデルを採用している。
D-TSNは、一般的なモデルフリーおよびモデルベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.972768001402898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In decision-making problems with limited training data, policy functions approximated using deep neural networks often exhibit suboptimal performance. An alternative approach involves learning a world model from the limited data and determining actions through online search. However, the performance is adversely affected by compounding errors arising from inaccuracies in the learned world model. While methods like TreeQN have attempted to address these inaccuracies by incorporating algorithmic inductive biases into the neural network architectures, the biases they introduce are often weak and insufficient for complex decision-making tasks. In this work, we introduce Differentiable Tree Search Network (D-TSN), a novel neural network architecture that significantly strengthens the inductive bias by embedding the algorithmic structure of a best-first online search algorithm. D-TSN employs a learned world model to conduct a fully differentiable online search. The world model is jointly optimized with the search algorithm, enabling the learning of a robust world model and mitigating the effect of prediction inaccuracies. Further, we note that a naive incorporation of best-first search could lead to a discontinuous loss function in the parameter space. We address this issue by adopting a stochastic tree expansion policy, formulating search tree expansion as another decision-making task, and introducing an effective variance reduction technique for the gradient computation. We evaluate D-TSN in an offline-RL setting with a limited training data scenario on Procgen games and grid navigation task, and demonstrate that D-TSN outperforms popular model-free and model-based baselines.
- Abstract(参考訳): 訓練データに制限のある意思決定問題では、ディープニューラルネットワークを用いて近似されたポリシー関数は、しばしば準最適性能を示す。
別のアプローチでは、限られたデータから世界モデルを学び、オンライン検索を通じて行動を決定する。
しかし, 学習世界モデルにおける不正確性に起因する複合的誤りにより, 性能に悪影響を及ぼす。
TreeQNのような手法は、ニューラルネットワークアーキテクチャにアルゴリズム的帰納バイアスを組み込むことで、これらの不正確な問題に対処しようとしているが、彼らが導入するバイアスはしばしば弱く、複雑な意思決定タスクには不十分である。
本研究では,最も優れたオンライン検索アルゴリズムのアルゴリズム構造を組み込むことで,帰納的バイアスを大幅に強化するニューラルネットワークアーキテクチャである微分可能木探索ネットワーク(D-TSN)を紹介する。
D-TSNは、完全に差別化可能なオンライン検索を行うために、学習された世界モデルを採用している。
世界モデルは検索アルゴリズムと協調的に最適化され、堅牢な世界モデルの学習を可能にし、予測不正確性の影響を緩和する。
さらに、最優先探索の素早い組み込みにより、パラメータ空間における不連続損失関数がもたらされる可能性があることに留意する。
本稿では、確率木拡張ポリシーを採用し、探索木拡張を別の意思決定課題として定式化し、勾配計算に有効な分散低減手法を導入することでこの問題に対処する。
我々は,D-TSNを,ゲームやグリッドナビゲーションタスクにおいて限られたトレーニングデータシナリオでオフラインRLで評価し,D-TSNが一般的なモデルフリーおよびモデルベースラインより優れていることを示す。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Multigoal-oriented dual-weighted-residual error estimation using deep
neural networks [0.0]
ディープラーニングは、関数を近似する柔軟性の高い強力なツールだと考えられている。
提案手法は,誤差の局所化に付随する問題を解く後続誤差推定法に基づく。
複数のゴール関数に対する後方誤差推定を得るために,効率的で実装が容易なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-21T16:59:44Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - SpaceNet: Make Free Space For Continual Learning [15.914199054779438]
本研究では,クラスインクリメンタル学習シナリオのための新しいアーキテクチャベースのSpaceNetを提案する。
SpaceNetは、複数のニューロンで各タスクのスパース接続を圧縮する適応的な方法で、スクラッチから深層ニューラルネットワークを訓練する。
実験により,従来のタスクを忘れることに対する提案手法のロバストさと,モデルが利用可能な容量を利用する場合のSpaceNetの効率性を示す。
論文 参考訳(メタデータ) (2020-07-15T11:21:31Z) - VINNAS: Variational Inference-based Neural Network Architecture Search [2.685668802278155]
スパース畳み込みニューラルネットワークを探索するための可変変分推論に基づくNAS法を提案する。
提案手法は,非ゼロパラメータの約2倍の精度で最先端の精度を示しながら,多様なネットワークセルを探索する。
論文 参考訳(メタデータ) (2020-07-12T21:47:35Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。