論文の概要: Highway Value Iteration Networks
- arxiv url: http://arxiv.org/abs/2406.03485v1
- Date: Wed, 5 Jun 2024 17:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:12:15.839087
- Title: Highway Value Iteration Networks
- Title(参考訳): ハイウェイバリュー・イテレーション・ネットワーク
- Authors: Yuhui Wang, Weida Li, Francesco Faccio, Qingyuan Wu, Jürgen Schmidhuber,
- Abstract要約: 価値反復ネットワーク(VIN)の構造にハイウェイ値反復を導入する。
結果として生じる新しいハイウェイVINは、標準的なバックプロパゲーションを使用して数百のレイヤーで効果的に訓練することができる。
数百の計画ステップを必要とする長期計画作業において、ディープハイウェイVINは伝統的なVINといくつかの先進的で非常に深いNNの両方を上回っている。
- 参考スコア(独自算出の注目度): 28.812226679935108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value iteration networks (VINs) enable end-to-end learning for planning tasks by employing a differentiable "planning module" that approximates the value iteration algorithm. However, long-term planning remains a challenge because training very deep VINs is difficult. To address this problem, we embed highway value iteration -- a recent algorithm designed to facilitate long-term credit assignment -- into the structure of VINs. This improvement augments the "planning module" of the VIN with three additional components: 1) an "aggregate gate," which constructs skip connections to improve information flow across many layers; 2) an "exploration module," crafted to increase the diversity of information and gradient flow in spatial dimensions; 3) a "filter gate" designed to ensure safe exploration. The resulting novel highway VIN can be trained effectively with hundreds of layers using standard backpropagation. In long-term planning tasks requiring hundreds of planning steps, deep highway VINs outperform both traditional VINs and several advanced, very deep NNs.
- Abstract(参考訳): 価値反復ネットワーク(VIN)は、価値反復アルゴリズムを近似した微分可能な「計画モジュール」を用いることで、計画タスクのエンドツーエンド学習を可能にする。
しかし、非常に深いVINの訓練が難しいため、長期的な計画は依然として課題である。
この問題に対処するため、VINの構造にハイウェイ値反復(長期クレジット割り当てを容易にするために設計された最近のアルゴリズム)を組み込む。
この改善は、VINの"計画モジュール"を3つの追加コンポーネントで強化する。
1) 多くの層にまたがる情報の流れを改善するために接続をスキップする「集約ゲート」
2 空間次元における情報及び勾配流の多様性を高めるための「探索モジュール」
3)安全な探査を確保するために設計された「フィルターゲート」。
結果として生じる新しいハイウェイVINは、標準的なバックプロパゲーションを使用して数百のレイヤーで効果的に訓練することができる。
数百の計画ステップを必要とする長期計画作業において、ディープハイウェイVINは伝統的なVINといくつかの先進的で非常に深いNNの両方を上回っている。
関連論文リスト
- Enhancing UAV Path Planning Efficiency Through Accelerated Learning [3.216130900831975]
本研究では,UAV無線通信中継の経路計画のための学習アルゴリズムの開発を目的とする。
ストレージ要件を削減し、Deep Reinforcement Learning(DRL)の収束を加速することができる。
論文 参考訳(メタデータ) (2025-01-17T12:05:24Z) - Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method [87.05001857594011]
Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。
我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
論文 参考訳(メタデータ) (2024-12-12T09:08:13Z) - SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。
この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。
その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning [29.545549033285987]
Value Iteration Network (VIN)は、強化学習(RL)における計画のための潜在MDPで価値イテレーションを実行するエンドツーエンドの差別化可能なアーキテクチャである。
VINは100ドル以上の迷路をナビゲートするなど、長期および大規模計画タスクへのスケールに苦慮している。
動的遷移カーネルを用いて潜伏型MDPを増大させることにより、この障害に対処する。
我々の新しい手法であるDynamic Transition VIN(DT-VIN)は,5000層まで容易にスケールでき,上述したタスクの難解なバージョンをカジュアルに解決する。
論文 参考訳(メタデータ) (2024-06-12T16:52:54Z) - DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems [26.48767051423456]
本稿では、分割とナビゲーションのための異なる埋め込みを学習する、新しいアテンションベースのパーティション・アンド・ナビゲーション・エンコーダ(P&N)を提案する。
エージェント置換対称損失関数(APS)を開発した。
論文 参考訳(メタデータ) (2024-05-27T15:33:16Z) - Deep Reinforcement Learning Aided Packet-Routing For Aeronautical Ad-Hoc
Networks Formed by Passenger Planes [99.54065757867554]
エンド・ツー・エンド(E2E)遅延の最小化を目的としたAANETにおけるルーティングのための深層強化学習を起動する。
最深Qネットワーク(DQN)は、転送ノードで観測される最適ルーティング決定と局所的な地理的情報との関係をキャプチャする。
フィードバック機構を組み込んだディープバリューネットワーク(DVN)を用いて,システムのダイナミクスに関する知識をさらに活用する。
論文 参考訳(メタデータ) (2021-10-28T14:18:56Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - NOMA in UAV-aided cellular offloading: A machine learning approach [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T17:38:48Z) - Auto-MAP: A DQN Framework for Exploring Distributed Execution Plans for
DNN Workloads [11.646744408920764]
Auto-MAPはワークロードの分散実行計画を探索するフレームワークである。
ディープラーニングモデルのIRレベルの強化学習を通じて、高速な並列化戦略を自動的に発見することができる。
評価の結果,Auto-MAPは複数のNLPおよび畳み込みモデルにおいて,より優れたスループットを実現しつつ,最適解を2時間以内に見つけることができることがわかった。
論文 参考訳(メタデータ) (2020-07-08T12:38:03Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。