論文の概要: Knowledge Distillation for Efficient Transformer-Based Reinforcement Learning in Hardware-Constrained Energy Management Systems
- arxiv url: http://arxiv.org/abs/2603.26249v1
- Date: Fri, 27 Mar 2026 10:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.440376
- Title: Knowledge Distillation for Efficient Transformer-Based Reinforcement Learning in Hardware-Constrained Energy Management Systems
- Title(参考訳): ハードウェア制約エネルギー管理システムにおける効率的な変圧器を用いた強化学習のための知識蒸留
- Authors: Pascal Henrich, Jonas Sievers, Maximilian Beichter, Thomas Blank, Ralf Mikut, Veit Hagenmeyer,
- Abstract要約: 変圧器を用いた強化学習が住宅エネルギー管理における逐次制御の有力な候補となっている。
本稿では,高容量決定変換器ポリシの意思決定動作をコンパクトモデルに伝達するための知識蒸留について検討する。
- 参考スコア(独自算出の注目度): 0.6652172511473785
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformer-based reinforcement learning has emerged as a strong candidate for sequential control in residential energy management. In particular, the Decision Transformer can learn effective battery dispatch policies from historical data, thereby increasing photovoltaic self-consumption and reducing electricity costs. However, transformer models are typically too computationally demanding for deployment on resource-constrained residential controllers, where memory and latency constraints are critical. This paper investigates knowledge distillation to transfer the decision-making behaviour of high-capacity Decision Transformer policies to compact models that are more suitable for embedded deployment. Using the Ausgrid dataset, we train teacher models in an offline sequence-based Decision Transformer framework on heterogeneous multi-building data. We then distil smaller student models by matching the teachers' actions, thereby preserving control quality while reducing model size. Across a broad set of teacher-student configurations, distillation largely preserves control performance and even yields small improvements of up to 1%, while reducing the parameter count by up to 96%, the inference memory by up to 90%, and the inference time by up to 63%. Beyond these compression effects, comparable cost improvements are also observed when distilling into a student model of identical architectural capacity. Overall, our results show that knowledge distillation makes Decision Transformer control more applicable for residential energy management on resource-limited hardware.
- Abstract(参考訳): 変圧器を用いた強化学習が住宅エネルギー管理における逐次制御の有力な候補となっている。
特に、Decision Transformerは、過去のデータから効果的なバッテリーディスパッチポリシーを学習し、光エネルギーの自己消費を増大させ、電力コストを削減できる。
しかし、トランスフォーマーモデルは通常、メモリとレイテンシの制約が重要となるリソース制約のある住宅コントローラに配置するために計算的に要求されすぎる。
本稿では,高容量決定変換器ポリシの意思決定動作を,組込み配置に適したコンパクトモデルに伝達するための知識蒸留について検討する。
Ausgridデータセットを用いて、不均一なマルチビルディングデータに基づいて、オフラインシーケンスベースの決定変換フレームワークで教師モデルを訓練する。
そして,教師の行動を一致させることで,より小さな学生モデルを排除し,モデルのサイズを小さくしながら,制御品質を保ちます。
教師の学生構成の広い範囲で、蒸留は制御性能を大きく保ち、パラメータカウントを最大96%、推論メモリを最大90%、推論時間を最大63%減らすとともに、1%まで改善する。
これらの圧縮効果以外にも、同じ建築能力の学生モデルに蒸留する場合、同等のコスト改善が観察される。
以上の結果から,資源限定ハードウェア上での住宅エネルギー管理において,知識蒸留により決定変換器の制御がより適用可能であることが示唆された。
関連論文リスト
- Energy-Efficient Autonomous Driving with Adaptive Perception and Robust Decision [8.423972998303759]
我々はEneADと呼ばれるエネルギー効率の高い自動運転フレームワークを提案する。
適応型知覚モジュールでは、データ管理とチューニングの観点から知覚最適化戦略を設計する。
EneADは知覚の消費を1.9倍から3.5倍に減らし、運転距離を3.9%から8.5%改善できることを示した。
論文 参考訳(メタデータ) (2025-10-29T06:18:15Z) - Data Efficient Any Transformer-to-Mamba Distillation via Attention Bridge [54.948715010753745]
状態空間モデル(SSM)はシーケンシャルモデリングのためのトランスフォーマーの効率的な代替品として登場し、再帰的な構造を通して優れたスケーラビリティを提供する。
本研究では,トランスフォーマーの教師から状態空間の学生モデルへの注意知識の伝達を効率的に行う新しいデータ効率蒸留フレームワークであるCAB(Cross-architecture distillation via Attention Bridge)を提案する。
本研究は,より強力なSSMコミュニティを構築するために,Transformerの専門知識の迅速な活用を可能にするために,注意に基づく知識を反復モデルに効率的に移行できることを示唆する。
論文 参考訳(メタデータ) (2025-10-22T05:56:14Z) - AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning [7.886461196772644]
コンテクストに依存しない推論コストを提供するトランスフォーマー自己アテンション機構の代替を提案する。
最先端アーキテクチャであるGTrXLと比較して、我々のアプローチでの推論は少なくとも40%安価であり、メモリ使用量を50%以上削減している。
論文 参考訳(メタデータ) (2023-10-24T10:51:50Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Multi-market Energy Optimization with Renewables via Reinforcement
Learning [1.0878040851638]
本稿では,再生可能エネルギーと貯蔵量を組み合わせた発電プラントの運転を最適化するための深層強化学習フレームワークを提案する。
このフレームワークは、ストレージデバイスによる時間結合、再生可能エネルギー生成の不確実性、エネルギー価格、非線形ストレージモデルなどの複雑さを扱う。
複雑なストレージモデルを統合するためにRLを使用し、凸と微分可能なコンポーネントモデルを必要とする最適化ベースのメソッドの制限を克服する。
論文 参考訳(メタデータ) (2023-06-13T21:35:24Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - A Relearning Approach to Reinforcement Learning for Control of Smart
Buildings [1.8799681615947088]
本稿では、漸進的深層学習(RL)を用いた制御方針の連続的再学習が、非定常過程におけるポリシー学習を改善することを実証する。
我々は,全体の快適さを犠牲にすることなく,建築エネルギーを同時に削減するインクリメンタルRL技術を開発した。
論文 参考訳(メタデータ) (2020-08-04T23:31:05Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。