論文の概要: Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning
- arxiv url: http://arxiv.org/abs/2406.08404v1
- Date: Wed, 12 Jun 2024 16:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:47:23.048358
- Title: Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning
- Title(参考訳): 極長期計画のための5000層への価値反復ネットワークのスケーリング
- Authors: Yuhui Wang, Qingyuan Wu, Weida Li, Dylan R. Ashley, Francesco Faccio, Chao Huang, Jürgen Schmidhuber,
- Abstract要約: Value Iteration Network (VIN)は、強化学習(RL)における計画のための潜在MDPで価値イテレーションを実行するエンドツーエンドの差別化可能なアーキテクチャである。
VINは100ドル以上の迷路をナビゲートするなど、長期および大規模計画タスクへのスケールに苦慮している。
動的遷移カーネルを用いて潜伏型MDPを増大させることにより、この障害に対処する。
我々の新しい手法であるDynamic Transition VIN(DT-VIN)は,5000層まで容易にスケールでき,上述したタスクの難解なバージョンをカジュアルに解決する。
- 参考スコア(独自算出の注目度): 29.545549033285987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Value Iteration Network (VIN) is an end-to-end differentiable architecture that performs value iteration on a latent MDP for planning in reinforcement learning (RL). However, VINs struggle to scale to long-term and large-scale planning tasks, such as navigating a $100\times 100$ maze -- a task which typically requires thousands of planning steps to solve. We observe that this deficiency is due to two issues: the representation capacity of the latent MDP and the planning module's depth. We address these by augmenting the latent MDP with a dynamic transition kernel, dramatically improving its representational capacity, and, to mitigate the vanishing gradient problem, introducing an "adaptive highway loss" that constructs skip connections to improve gradient flow. We evaluate our method on both 2D maze navigation environments and the ViZDoom 3D navigation benchmark. We find that our new method, named Dynamic Transition VIN (DT-VIN), easily scales to 5000 layers and casually solves challenging versions of the above tasks. Altogether, we believe that DT-VIN represents a concrete step forward in performing long-term large-scale planning in RL environments.
- Abstract(参考訳): バリューイテレーションネットワーク(英: Value Iteration Network、VIN)は、強化学習(RL)における計画のための潜在MDPで価値イテレーションを実行するエンドツーエンドの差別化可能なアーキテクチャである。
しかしながら、VINは100\times 100$ mazeをナビゲートするなど、長期的かつ大規模な計画タスクへのスケールアップに苦慮している。
我々は,この欠陥は,潜伏型MDPの表現能力と計画モジュールの深さの2つの問題に起因すると考えている。
動的遷移カーネルで潜伏型MDPを増設し、その表現能力を大幅に向上させ、消失する勾配問題を緩和し、接続をスキップして勾配流を改善する「適応ハイウェイ損失」を導入することで、これらに対処する。
本手法は2次元迷路ナビゲーション環境とViZDoom 3Dナビゲーションベンチマークの両方で評価する。
我々の新しい手法であるDynamic Transition VIN(DT-VIN)は,5000層まで容易にスケールでき,上述したタスクの難解なバージョンをカジュアルに解決する。
また, DT-VINは, RL環境下での長期的大規模計画における具体的な一歩であると考えている。
関連論文リスト
- Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method [87.05001857594011]
Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。
我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
論文 参考訳(メタデータ) (2024-12-12T09:08:13Z) - SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。
この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。
その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - EPD: Long-term Memory Extraction, Context-awared Planning and Multi-iteration Decision @ EgoPlan Challenge ICML 2024 [50.89751993430737]
本研究では,長期記憶抽出,コンテキストアウェアド計画,多項目決定という3段階からなる新しい計画手法を提案する。
EPDは1,584のエゴセントリックなタスク計画質問に対して53.85%の計画精度を達成した。
論文 参考訳(メタデータ) (2024-07-28T15:14:07Z) - Highway Value Iteration Networks [28.812226679935108]
価値反復ネットワーク(VIN)の構造にハイウェイ値反復を導入する。
結果として生じる新しいハイウェイVINは、標準的なバックプロパゲーションを使用して数百のレイヤーで効果的に訓練することができる。
数百の計画ステップを必要とする長期計画作業において、ディープハイウェイVINは伝統的なVINといくつかの先進的で非常に深いNNの両方を上回っている。
論文 参考訳(メタデータ) (2024-06-05T17:46:26Z) - Module-wise Training of Neural Networks via the Minimizing Movement
Scheme [15.315147138002153]
階層的あるいはモジュール的なニューラルネットワークのトレーニングは、メモリが制限された制約付きデバイス上の設定において魅力的なものだ。
分布空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を提案する。
本稿では,ResNetsやTransformer,VGGといった各種アーキテクチャのモジュールワイドトレーニングにおいて,正規化が加えられた際の精度の向上を示す。
論文 参考訳(メタデータ) (2023-09-29T16:03:25Z) - Value Iteration Networks with Gated Summarization Module [7.289178621436725]
本稿では,VIN(Value Iteration Networks)が直面している,より大きな入力マップの処理と,繰り返しの増大による累積誤差の影響の軽減に対処する。
本稿では,GS-VIN (Gated Summarization Module) を用いた新しい手法であるValue Iteration Networksを提案する。
論文 参考訳(メタデータ) (2023-05-11T12:25:12Z) - Dynamics-aware Adversarial Attack of 3D Sparse Convolution Network [75.1236305913734]
ディープニューラルネットワークにおける動的に認識される敵攻撃問題について検討する。
ほとんどの既存の敵攻撃アルゴリズムは基本的な前提の下で設計されており、ネットワークアーキテクチャは攻撃プロセス全体を通して固定されている。
本稿では,LGM(Leaded Gradient Method)を提案する。
論文 参考訳(メタデータ) (2021-12-17T10:53:35Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。