論文の概要: Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning
- arxiv url: http://arxiv.org/abs/2406.08404v2
- Date: Sun, 06 Jul 2025 07:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.066811
- Title: Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning
- Title(参考訳): 極長期計画のための5000層への価値反復ネットワークのスケーリング
- Authors: Yuhui Wang, Qingyuan Wu, Dylan R. Ashley, Francesco Faccio, Weida Li, Chao Huang, Jürgen Schmidhuber,
- Abstract要約: バリューイテレーションネットワーク(VIN)は、計画のためのエンドツーエンドの差別化可能なニューラルネットワークアーキテクチャである。
VINは100倍の迷路をナビゲートするなど、長期および大規模計画タスクにスケールするのに苦労する。
5000層までスケールし、上記のタスクの挑戦的なバージョンを解決する動的遷移VIN(DT-VIN)を紹介します。
- 参考スコア(独自算出の注目度): 29.545549033285987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Value Iteration Network (VIN) is an end-to-end differentiable neural network architecture for planning. It exhibits strong generalization to unseen domains by incorporating a differentiable planning module that operates on a latent Markov Decision Process (MDP). However, VINs struggle to scale to long-term and large-scale planning tasks, such as navigating a 100x100 maze -- a task that typically requires thousands of planning steps to solve. We observe that this deficiency is due to two issues: the representation capacity of the latent MDP and the planning module's depth. We address these by augmenting the latent MDP with a dynamic transition kernel, dramatically improving its representational capacity, and, to mitigate the vanishing gradient problem, introduce an "adaptive highway loss" that constructs skip connections to improve gradient flow. We evaluate our method on 2D/3D maze navigation environments, continuous control, and the real-world Lunar rover navigation task. We find that our new method, named Dynamic Transition VIN (DT-VIN), scales to 5000 layers and solves challenging versions of the above tasks. Altogether, we believe that DT-VIN represents a concrete step forward in performing long-term large-scale planning in complex environments.
- Abstract(参考訳): Value Iteration Network (VIN)は、計画のためのエンドツーエンドの差別化可能なニューラルネットワークアーキテクチャである。
これは、潜在マルコフ決定プロセス(MDP)上で動作する微分可能な計画モジュールを組み込むことにより、目に見えない領域に強い一般化を示す。
しかしながら、VINは100倍の迷路をナビゲートするなど、長期的かつ大規模な計画タスクへのスケールアップに苦慮している。
我々は,この欠陥は,潜伏型MDPの表現能力と計画モジュールの深さの2つの問題に起因すると考えている。
動的遷移カーネルで潜伏型MDPを増設し、その表現能力を大幅に向上させ、消滅する勾配問題を緩和するために、勾配流を改善するためにスキップ接続を構築する「適応ハイウェイ損失」を導入する。
本研究では,2D/3D迷路ナビゲーション環境,連続制御,実世界のLunarローバーナビゲーションタスクについて検討した。
我々の新しい手法であるDynamic Transition VIN (DT-VIN) は5000層までスケールし、上記のタスクの挑戦的なバージョンを解決する。
また,DT-VINは,複雑な環境下での長期的大規模計画を行うための具体的な一歩であると考えている。
関連論文リスト
- Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion [62.91968752955649]
本稿では,学習データよりも長い軌道計画を行うための,拡張可能な長期計画支援エージェントの課題に対処する。
より短いものを縫い合わせることで、より長い軌跡を反復的に生成する拡張法を提案する。
HM-ディフューザーは階層構造を用いてこれらの拡張軌道を訓練し、複数の時間スケールにわたるタスクを効率的に処理する。
論文 参考訳(メタデータ) (2025-03-25T22:52:46Z) - Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method [94.74003109176581]
Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。
我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
論文 参考訳(メタデータ) (2024-12-12T09:08:13Z) - SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。
この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。
その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - DNN Task Assignment in UAV Networks: A Generative AI Enhanced Multi-Agent Reinforcement Learning Approach [16.139481340656552]
本稿では,マルチエージェント強化学習(MARL)と生成拡散モデル(GDM)を組み合わせた共同手法を提案する。
第2段階では,GDMのリバース・デノナイズ・プロセスを利用して,マルチエージェント・ディープ・Deep Deterministic Policy gradient(MADDPG)におけるアクタネットワークを置き換える新しいDNNタスク割当アルゴリズム(GDM-MADDPG)を導入する。
シミュレーションの結果,提案アルゴリズムは,経路計画,情報化時代(AoI),エネルギー消費,タスク負荷分散の観点から,ベンチマークに比較して良好な性能を示した。
論文 参考訳(メタデータ) (2024-11-13T02:41:02Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - EPD: Long-term Memory Extraction, Context-awared Planning and Multi-iteration Decision @ EgoPlan Challenge ICML 2024 [50.89751993430737]
本研究では,長期記憶抽出,コンテキストアウェアド計画,多項目決定という3段階からなる新しい計画手法を提案する。
EPDは1,584のエゴセントリックなタスク計画質問に対して53.85%の計画精度を達成した。
論文 参考訳(メタデータ) (2024-07-28T15:14:07Z) - Highway Value Iteration Networks [28.812226679935108]
価値反復ネットワーク(VIN)の構造にハイウェイ値反復を導入する。
結果として生じる新しいハイウェイVINは、標準的なバックプロパゲーションを使用して数百のレイヤーで効果的に訓練することができる。
数百の計画ステップを必要とする長期計画作業において、ディープハイウェイVINは伝統的なVINといくつかの先進的で非常に深いNNの両方を上回っている。
論文 参考訳(メタデータ) (2024-06-05T17:46:26Z) - Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。
この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。
そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-23T12:53:51Z) - Module-wise Training of Neural Networks via the Minimizing Movement
Scheme [15.315147138002153]
階層的あるいはモジュール的なニューラルネットワークのトレーニングは、メモリが制限された制約付きデバイス上の設定において魅力的なものだ。
分布空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を提案する。
本稿では,ResNetsやTransformer,VGGといった各種アーキテクチャのモジュールワイドトレーニングにおいて,正規化が加えられた際の精度の向上を示す。
論文 参考訳(メタデータ) (2023-09-29T16:03:25Z) - Value Iteration Networks with Gated Summarization Module [7.289178621436725]
本稿では,VIN(Value Iteration Networks)が直面している,より大きな入力マップの処理と,繰り返しの増大による累積誤差の影響の軽減に対処する。
本稿では,GS-VIN (Gated Summarization Module) を用いた新しい手法であるValue Iteration Networksを提案する。
論文 参考訳(メタデータ) (2023-05-11T12:25:12Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Dynamics-aware Adversarial Attack of 3D Sparse Convolution Network [75.1236305913734]
ディープニューラルネットワークにおける動的に認識される敵攻撃問題について検討する。
ほとんどの既存の敵攻撃アルゴリズムは基本的な前提の下で設計されており、ネットワークアーキテクチャは攻撃プロセス全体を通して固定されている。
本稿では,LGM(Leaded Gradient Method)を提案する。
論文 参考訳(メタデータ) (2021-12-17T10:53:35Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。