Fugu-MT 論文翻訳(概要): Differentiable Tree Search in Latent State Space

論文の概要: Differentiable Tree Search in Latent State Space

arxiv url: http://arxiv.org/abs/2401.11660v1
Date: Mon, 22 Jan 2024 02:33:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 15:22:08.595814
Title: Differentiable Tree Search in Latent State Space
Title（参考訳）: 潜在状態空間における微分可能木探索
Authors: Dixant Mittal and Wee Sun Lee
Abstract要約: 微分可能木探索(DTS)は、誘導バイアスを大幅に強化する新しいニューラルネットワークアーキテクチャである。本稿では,最優先のオンライン検索アルゴリズムのアルゴリズム構造を組み込むことにより,誘導バイアスを大幅に強化するニューラルネットワークアーキテクチャを提案する。我々は,DTSをオフラインRL設定で評価し,Procgenゲームとグリッドナビゲーションタスクのトレーニングデータシナリオを限定した。
参考スコア（独自算出の注目度）: 17.688341927195033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In decision-making problems with limited training data, policy functions approximated using deep neural networks often exhibit suboptimal performance. An alternative approach involves learning a world model from the limited data and determining actions through online search. However, the performance is adversely affected by compounding errors arising from inaccuracies in the learnt world model. While methods like TreeQN have attempted to address these inaccuracies by incorporating algorithmic structural biases into their architectures, the biases they introduce are often weak and insufficient for complex decision-making tasks. In this work, we introduce Differentiable Tree Search (DTS), a novel neural network architecture that significantly strengthens the inductive bias by embedding the algorithmic structure of a best-first online search algorithm. DTS employs a learnt world model to conduct a fully differentiable online search in latent state space. The world model is jointly optimised with the search algorithm, enabling the learning of a robust world model and mitigating the effect of model inaccuracies. We address potential Q-function discontinuities arising from naive incorporation of best-first search by adopting a stochastic tree expansion policy, formulating search tree expansion as a decision-making task, and introducing an effective variance reduction technique for the gradient computation. We evaluate DTS in an offline-RL setting with a limited training data scenario on Procgen games and grid navigation task, and demonstrate that DTS outperforms popular model-free and model-based baselines.
Abstract（参考訳）: 訓練データに制限のある意思決定問題では、ディープニューラルネットワークを用いて近似されたポリシー関数は、しばしば準最適性能を示す。別のアプローチでは、限られたデータから世界モデルを学び、オンライン検索を通じて行動を決定する。しかし,学習世界モデルにおける不正確性に起因する誤りの複合化によって,パフォーマンスは悪影響を受ける。 treeqnのような手法は、それらのアーキテクチャにアルゴリズム的構造バイアスを組み込むことで、これらの不正確さに対処しようとしたが、彼らが導入するバイアスはしばしば弱く、複雑な意思決定タスクには不十分である。本研究では,最も優れたオンライン検索アルゴリズムのアルゴリズム構造を組み込むことにより,誘導バイアスを大幅に強化するニューラルネットワークアーキテクチャである微分可能木探索(DTS)を導入する。 DTSは学習した世界モデルを用いて、潜在状態空間で完全に差別化可能なオンライン検索を行う。世界モデルは検索アルゴリズムと共同で最適化され、ロバストな世界モデルの学習を可能にし、モデル不正確性の効果を緩和する。本稿では、確率木拡張ポリシーを採用し、探索木拡張を意思決定タスクとして定式化し、勾配計算に有効な分散低減手法を導入することにより、最優先探索の素早い導入から生じるQ-関数の不連続性に対処する。我々は,DTSを,ゲームやグリッドナビゲーションタスクにおいて限られたトレーニングデータシナリオでオフラインRLで評価し,DTSが一般的なモデルフリーおよびモデルベースラインより優れていることを示す。

関連論文リスト

Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Variational Inference for Infinitely Deep Neural Networks [0.4061135251278187]
非有界深度ニューラルネットワーク(UDN) 我々は、無限に深い確率モデルである非有界深度ニューラルネットワーク(UDN)を導入し、その複雑さをトレーニングデータに適用する。我々はUDNを実データと合成データに基づいて研究する。
論文参考訳（メタデータ） (2022-09-21T03:54:34Z)
Network Gradient Descent Algorithm for Decentralized Federated Learning [0.2867517731896504]
本稿では,コミュニケーションベースネットワーク上で実行される新しい勾配勾配アルゴリズムである,完全に分散化されたフェデレーション学習アルゴリズムについて検討する。 NGD法では、統計(パラメータ推定など)のみを通信し、プライバシーのリスクを最小限に抑える必要がある。学習速度とネットワーク構造の両方が,NGD推定器の統計的効率を決定する上で重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2022-05-06T02:53:31Z)
Multigoal-oriented dual-weighted-residual error estimation using deep neural networks [0.0]
ディープラーニングは、関数を近似する柔軟性の高い強力なツールだと考えられている。提案手法は,誤差の局所化に付随する問題を解く後続誤差推定法に基づく。複数のゴール関数に対する後方誤差推定を得るために,効率的で実装が容易なアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-12-21T16:59:44Z)
Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-07T14:19:07Z)
A Novel Neural Network Training Framework with Data Assimilation [2.948167339160823]
勾配計算を避けるため,データ同化に基づく勾配なし学習フレームワークを提案する。その結果,提案手法は勾配法よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-10-06T11:12:23Z)
VINNAS: Variational Inference-based Neural Network Architecture Search [2.685668802278155]
スパース畳み込みニューラルネットワークを探索するための可変変分推論に基づくNAS法を提案する。提案手法は,非ゼロパラメータの約2倍の精度で最先端の精度を示しながら,多様なネットワークセルを探索する。
論文参考訳（メタデータ） (2020-07-12T21:47:35Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Rectified Linear Postsynaptic Potential Function for Backpropagation in Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文参考訳（メタデータ） (2020-03-26T11:13:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。