論文の概要: Decision SpikeFormer: Spike-Driven Transformer for Decision Making
- arxiv url: http://arxiv.org/abs/2504.03800v1
- Date: Fri, 04 Apr 2025 07:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:48.764253
- Title: Decision SpikeFormer: Spike-Driven Transformer for Decision Making
- Title(参考訳): Decision SpikeFormer: 意思決定のためのSpike-Driven Transformer
- Authors: Wei Huang, Qinying Gu, Nanyang Ye,
- Abstract要約: オフライン強化学習(RL)は、直接環境の相互作用を避けるために、事前に収集したデータのみにポリシートレーニングを可能にする。
シークエンスモデリングによるオフラインRLに取り組むために設計された最初のスパイク駆動トランスフォーマーモデルであるDSFormerを紹介する。
D4RLベンチマークの総合的な結果は、DSFormerがSNNとANNのどちらよりも優れており、78.4%の省エネを実現していることを示している。
- 参考スコア(独自算出の注目度): 11.652964678824382
- License:
- Abstract: Offline reinforcement learning (RL) enables policy training solely on pre-collected data, avoiding direct environment interaction - a crucial benefit for energy-constrained embodied AI applications. Although Artificial Neural Networks (ANN)-based methods perform well in offline RL, their high computational and energy demands motivate exploration of more efficient alternatives. Spiking Neural Networks (SNNs) show promise for such tasks, given their low power consumption. In this work, we introduce DSFormer, the first spike-driven transformer model designed to tackle offline RL via sequence modeling. Unlike existing SNN transformers focused on spatial dimensions for vision tasks, we develop Temporal Spiking Self-Attention (TSSA) and Positional Spiking Self-Attention (PSSA) in DSFormer to capture the temporal and positional dependencies essential for sequence modeling in RL. Additionally, we propose Progressive Threshold-dependent Batch Normalization (PTBN), which combines the benefits of LayerNorm and BatchNorm to preserve temporal dependencies while maintaining the spiking nature of SNNs. Comprehensive results in the D4RL benchmark show DSFormer's superiority over both SNN and ANN counterparts, achieving 78.4% energy savings, highlighting DSFormer's advantages not only in energy efficiency but also in competitive performance. Code and models are public at https://wei-nijuan.github.io/DecisionSpikeFormer.
- Abstract(参考訳): オフライン強化学習(RL)は、エネルギ制約の具体化されたAIアプリケーションにとって重要なメリットである、直接的な環境相互作用を回避する、事前収集データのみによるポリシトレーニングを可能にする。
人工ニューラルネットワーク(ANN)ベースの手法はオフラインのRLではうまく機能するが、その高い計算とエネルギー要求はより効率的な代替手段の探索を動機付けている。
スパイキングニューラルネットワーク(SNN)は、消費電力が少ないことから、そのようなタスクを約束する。
本研究では,シークエンスモデリングによるオフラインRLに取り組むために設計された最初のスパイク駆動型トランスフォーマーモデルであるDSFormerを紹介する。
視覚タスクの空間次元に着目した既存のSNNトランスフォーマーとは違い,DSFormerでは時空間スパイキング自己注意(TSSA)と位置スパイキング自己注意(PSSA)を開発し,RLにおけるシーケンスモデリングに必要な時間的および位置的依存関係を捉える。
さらに,SNNのスパイク特性を維持しつつ,時間的依存関係を維持するためにLayerNormとBatchNormの利点を組み合わせた,プログレッシブ・スレッショルド依存バッチ正規化(PTBN)を提案する。
D4RLベンチマークの総合的な結果は、DSFormerがSNNとANNのどちらよりも優れていることを示し、78.4%の省エネを実現し、エネルギー効率だけでなく競争性能でもDSFormerの利点を強調している。
コードとモデルはhttps://wei-nijuan.github.io/DecisionSpikeFormer.comで公開されている。
関連論文リスト
- DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Fully Spiking Actor Network with Intra-layer Connections for
Reinforcement Learning [51.386945803485084]
エージェントが制御する多次元決定論的ポリシーを学習する必要があるタスクに焦点をあてる。
既存のスパイクベースのRL法は、SNNの出力として発火率を取り、完全に接続された層を通して連続的なアクション空間(つまり決定論的なポリシー)を表すように変換する。
浮動小数点行列操作を伴わない完全にスパイクするアクターネットワークを開発するため,昆虫に見られる非スパイク介在ニューロンからインスピレーションを得た。
論文 参考訳(メタデータ) (2024-01-09T07:31:34Z) - Digital Twin Assisted Deep Reinforcement Learning for Online Admission
Control in Sliced Network [19.152875040151976]
この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。
ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。
DT加速DRLは、直接訓練された最先端Q-ラーニングモデルと比較して、リソース利用率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-10-07T09:09:19Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - A Spiking Neural Network Structure Implementing Reinforcement Learning [0.0]
本稿では,SNNの構造について述べる。
本論文で考察したSNN構造は、LIFAT(Leky Integration-and-fire neuron with adapt threshold)モデルの一般化によって記述されたスパイクニューロンを含む。
私の概念は、RLタスク特性に関する非常に一般的な仮定に基づいており、適用性に目に見える制限はありません。
論文 参考訳(メタデータ) (2022-04-09T09:08:10Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - Deep Reinforcement Learning with Population-Coded Spiking Neural Network
for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。
我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。
本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文 参考訳(メタデータ) (2020-10-19T16:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。