論文の概要: Differentiable Tree Search Network
- arxiv url: http://arxiv.org/abs/2401.11660v2
- Date: Fri, 2 Aug 2024 07:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:33:20.436161
- Title: Differentiable Tree Search Network
- Title(参考訳): 微分可能木探索網
- Authors: Dixant Mittal, Wee Sun Lee,
- Abstract要約: 微分可能木探索ネットワーク(D-TSN)は、誘導バイアスを大幅に強化する新しいニューラルネットワークアーキテクチャである。
D-TSNは、完全に差別化可能なオンライン検索を行うために、学習された世界モデルを採用している。
D-TSNは、一般的なモデルフリーおよびモデルベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.972768001402898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In decision-making problems with limited training data, policy functions approximated using deep neural networks often exhibit suboptimal performance. An alternative approach involves learning a world model from the limited data and determining actions through online search. However, the performance is adversely affected by compounding errors arising from inaccuracies in the learned world model. While methods like TreeQN have attempted to address these inaccuracies by incorporating algorithmic inductive biases into the neural network architectures, the biases they introduce are often weak and insufficient for complex decision-making tasks. In this work, we introduce Differentiable Tree Search Network (D-TSN), a novel neural network architecture that significantly strengthens the inductive bias by embedding the algorithmic structure of a best-first online search algorithm. D-TSN employs a learned world model to conduct a fully differentiable online search. The world model is jointly optimized with the search algorithm, enabling the learning of a robust world model and mitigating the effect of prediction inaccuracies. Further, we note that a naive incorporation of best-first search could lead to a discontinuous loss function in the parameter space. We address this issue by adopting a stochastic tree expansion policy, formulating search tree expansion as another decision-making task, and introducing an effective variance reduction technique for the gradient computation. We evaluate D-TSN in an offline-RL setting with a limited training data scenario on Procgen games and grid navigation task, and demonstrate that D-TSN outperforms popular model-free and model-based baselines.
- Abstract(参考訳): 訓練データに制限のある意思決定問題では、ディープニューラルネットワークを用いて近似されたポリシー関数は、しばしば準最適性能を示す。
別のアプローチでは、限られたデータから世界モデルを学び、オンライン検索を通じて行動を決定する。
しかし, 学習世界モデルにおける不正確性に起因する複合的誤りにより, 性能に悪影響を及ぼす。
TreeQNのような手法は、ニューラルネットワークアーキテクチャにアルゴリズム的帰納バイアスを組み込むことで、これらの不正確な問題に対処しようとしているが、彼らが導入するバイアスはしばしば弱く、複雑な意思決定タスクには不十分である。
本研究では,最も優れたオンライン検索アルゴリズムのアルゴリズム構造を組み込むことで,帰納的バイアスを大幅に強化するニューラルネットワークアーキテクチャである微分可能木探索ネットワーク(D-TSN)を紹介する。
D-TSNは、完全に差別化可能なオンライン検索を行うために、学習された世界モデルを採用している。
世界モデルは検索アルゴリズムと協調的に最適化され、堅牢な世界モデルの学習を可能にし、予測不正確性の影響を緩和する。
さらに、最優先探索の素早い組み込みにより、パラメータ空間における不連続損失関数がもたらされる可能性があることに留意する。
本稿では、確率木拡張ポリシーを採用し、探索木拡張を別の意思決定課題として定式化し、勾配計算に有効な分散低減手法を導入することでこの問題に対処する。
我々は,D-TSNを,ゲームやグリッドナビゲーションタスクにおいて限られたトレーニングデータシナリオでオフラインRLで評価し,D-TSNが一般的なモデルフリーおよびモデルベースラインより優れていることを示す。
関連論文リスト
- Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Variational Inference for Infinitely Deep Neural Networks [0.4061135251278187]
非有界深度ニューラルネットワーク(UDN)
我々は、無限に深い確率モデルである非有界深度ニューラルネットワーク(UDN)を導入し、その複雑さをトレーニングデータに適用する。
我々はUDNを実データと合成データに基づいて研究する。
論文 参考訳(メタデータ) (2022-09-21T03:54:34Z) - Network Gradient Descent Algorithm for Decentralized Federated Learning [0.2867517731896504]
本稿では,コミュニケーションベースネットワーク上で実行される新しい勾配勾配アルゴリズムである,完全に分散化されたフェデレーション学習アルゴリズムについて検討する。
NGD法では、統計(パラメータ推定など)のみを通信し、プライバシーのリスクを最小限に抑える必要がある。
学習速度とネットワーク構造の両方が,NGD推定器の統計的効率を決定する上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2022-05-06T02:53:31Z) - Multigoal-oriented dual-weighted-residual error estimation using deep
neural networks [0.0]
ディープラーニングは、関数を近似する柔軟性の高い強力なツールだと考えられている。
提案手法は,誤差の局所化に付随する問題を解く後続誤差推定法に基づく。
複数のゴール関数に対する後方誤差推定を得るために,効率的で実装が容易なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-21T16:59:44Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - A Novel Neural Network Training Framework with Data Assimilation [2.948167339160823]
勾配計算を避けるため,データ同化に基づく勾配なし学習フレームワークを提案する。
その結果,提案手法は勾配法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-06T11:12:23Z) - VINNAS: Variational Inference-based Neural Network Architecture Search [2.685668802278155]
スパース畳み込みニューラルネットワークを探索するための可変変分推論に基づくNAS法を提案する。
提案手法は,非ゼロパラメータの約2倍の精度で最先端の精度を示しながら,多様なネットワークセルを探索する。
論文 参考訳(メタデータ) (2020-07-12T21:47:35Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。