論文の概要: Learning Computational Efficient Bots with Costly Features
- arxiv url: http://arxiv.org/abs/2308.09629v1
- Date: Fri, 18 Aug 2023 15:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:37:47.041314
- Title: Learning Computational Efficient Bots with Costly Features
- Title(参考訳): コストの高い機能を持つ計算効率の高いボットの学習
- Authors: Anthony Kobanda, Valliappan C.A., Joshua Romoff, Ludovic Denoyer
- Abstract要約: 本稿では,入力特徴の計算コストを考慮した汎用的なオフライン学習手法を提案する。
本稿では,D4RLベンチマークや複雑な3D環境など,様々なタスクにおける本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 9.39143793228343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) techniques have become increasingly used in
various fields for decision-making processes. However, a challenge that often
arises is the trade-off between both the computational efficiency of the
decision-making process and the ability of the learned agent to solve a
particular task. This is particularly critical in real-time settings such as
video games where the agent needs to take relevant decisions at a very high
frequency, with a very limited inference time.
In this work, we propose a generic offline learning approach where the
computation cost of the input features is taken into account. We derive the
Budgeted Decision Transformer as an extension of the Decision Transformer that
incorporates cost constraints to limit its cost at inference. As a result, the
model can dynamically choose the best input features at each timestep. We
demonstrate the effectiveness of our method on several tasks, including D4RL
benchmarks and complex 3D environments similar to those found in video games,
and show that it can achieve similar performance while using significantly
fewer computational resources compared to classical approaches.
- Abstract(参考訳): 深層強化学習(DRL)技術は様々な分野において意思決定プロセスに利用されつつある。
しかし、しばしば発生する課題は、意思決定プロセスの計算効率と学習したエージェントが特定のタスクを解決する能力のトレードオフである。
これは、エージェントが非常に高い頻度で、非常に限られた推論時間で関連する決定を行う必要があるビデオゲームのようなリアルタイム設定において特に重要である。
本研究では,入力特徴の計算コストを考慮した汎用的なオフライン学習手法を提案する。
本稿では,予算決定変換器をコスト制約を取り入れて推論コストを制限する決定変換器の拡張として導出する。
その結果、モデルが各タイムステップで最適な入力特徴を動的に選択できる。
D4RLベンチマークやD4RLに類似した複雑な3D環境など,いくつかのタスクにおける本手法の有効性を実証し,従来の手法に比べて計算資源をはるかに少なくして,同様の性能を実現することを示す。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Multi-Resolution Active Learning of Fourier Neural Operators [33.63483360957646]
本稿では,FNO(MRA-FNO)の多解能動的学習を提案する。
具体的には,確率的多分解能FNOを提案し,モンテカルロのアンサンブルを用いて効果的な後部推論アルゴリズムを提案する。
いくつかのベンチマーク演算子学習タスクにおいて,本手法の利点を示した。
論文 参考訳(メタデータ) (2023-09-29T04:41:27Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Cost-Effective Federated Learning Design [37.16466118235272]
フェデレーション学習(federated learning, fl)は、多数のデバイスが生のデータを共有することなく、協調的にモデルを学習できる分散学習パラダイムである。
その効率性と有効性にもかかわらず、反復的なオンデバイス学習プロセスは、学習時間とエネルギー消費の面でかなりのコストを伴います。
本稿では,本質的制御変数を最適に選択する適応型flの設計法を分析し,総コストを最小化し,収束性を確保した。
論文 参考訳(メタデータ) (2020-12-15T14:45:11Z) - Deep Multi-Fidelity Active Learning of High-dimensional Outputs [17.370056935194786]
我々は,高次元出力で学習するためのディープニューラルネットワークに基づく多忠実度モデルを開発した。
次に,予測エントロピーの原理を拡張する情報に基づく相互獲得関数を提案する。
計算物理学と工学設計のいくつかの応用において,本手法の利点を示す。
論文 参考訳(メタデータ) (2020-12-02T00:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。