Fugu-MT 論文翻訳(概要): Efficient Transformer-based Hyper-parameter Optimization for Resource-constrained IoT Environments

論文の概要: Efficient Transformer-based Hyper-parameter Optimization for Resource-constrained IoT Environments

arxiv url: http://arxiv.org/abs/2403.12237v2
Date: Wed, 1 May 2024 21:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 21:31:27.641694
Title: Efficient Transformer-based Hyper-parameter Optimization for Resource-constrained IoT Environments
Title（参考訳）: 資源制約型IoT環境における効率的なトランスフォーマーベースハイパーパラメータ最適化
Authors: Ibrahim Shaer, Soodeh Nikan, Abdallah Shami,
Abstract要約: 本稿では,トランスフォーマーアーキテクチャとアクター批判型強化学習モデルTRL-HPOを組み合わせた新しいアプローチを提案する。その結果、TRL-HPOはこれらの手法の分類結果を同時に6.8%上回る結果となった。本稿では,資源制約環境下でのRLベースのHPOプロセスを改善するための新しい方法について述べる。
参考スコア（独自算出の注目度）: 9.72257571115249
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The hyper-parameter optimization (HPO) process is imperative for finding the best-performing Convolutional Neural Networks (CNNs). The automation process of HPO is characterized by its sizable computational footprint and its lack of transparency; both important factors in a resource-constrained Internet of Things (IoT) environment. In this paper, we address these problems by proposing a novel approach that combines transformer architecture and actor-critic Reinforcement Learning (RL) model, TRL-HPO, equipped with multi-headed attention that enables parallelization and progressive generation of layers. These assumptions are founded empirically by evaluating TRL-HPO on the MNIST dataset and comparing it with state-of-the-art approaches that build CNN models from scratch. The results show that TRL-HPO outperforms the classification results of these approaches by 6.8% within the same time frame, demonstrating the efficiency of TRL-HPO for the HPO process. The analysis of the results identifies the main culprit for performance degradation attributed to stacking fully connected layers. This paper identifies new avenues for improving RL-based HPO processes in resource-constrained environments.
Abstract（参考訳）: ハイパーパラメータ最適化(HPO)プロセスは、最も優れた畳み込みニューラルネットワーク(CNN)を見つけるために必須である。 HPOの自動化プロセスは、その巨大な計算フットプリントと透明性の欠如を特徴としている。本稿では,トランスフォーマアーキテクチャとアクタ・クリティック・強化学習(RL)モデルを組み合わせた新しい手法であるTRL-HPOを提案する。これらの仮定は、MNISTデータセット上でTRL-HPOを評価し、CNNモデルをスクラッチから構築する最先端のアプローチと比較することによって、実証的に構築される。 TRL-HPOは,HPOプロセスにおけるTRL-HPOの効率を実証し,これらの手法の分類結果を同時に6.8%向上させることを示した。この結果から, 完全に連結した層を積み重ねることによる性能劣化の主要因を同定した。本稿では,資源制約環境下でのRLベースのHPOプロセスを改善するための新しい方法について述べる。

関連論文リスト

Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward [93.04811239892852]
強化学習(Reinforcement Learning, RL)は近年, 拡散モデルに組み入れられている。本稿では,拡散型修復モデルにRLを効果的に組み込む方法について検討する。
論文参考訳（メタデータ） (2025-11-03T14:57:57Z)
Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文参考訳（メタデータ） (2025-05-22T17:59:49Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Grouped Sequential Optimization Strategy -- the Application of Hyperparameter Importance Assessment in Deep Learning [1.7778609937758323]
我々は「逐次グループ」と呼ばれる新しいHPO戦略を実装している実験は,6つの画像分類データセットで検証され,ハイパーパラメータ重要度評価(HIA)を組み込むことで,モデル性能を損なうことなくHPOを大幅に加速することを示した。
論文参考訳（メタデータ） (2025-03-07T03:01:00Z)
Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。 HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文参考訳（メタデータ） (2024-11-01T04:58:40Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである様々なHPOアプローチの比較が可能であり、高い効率で評価できる。 ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文参考訳（メタデータ） (2024-09-27T15:22:28Z)
A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文参考訳（メタデータ） (2024-09-21T15:50:59Z)
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。 RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文参考訳（メタデータ） (2024-09-02T19:10:32Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Hyperparameters in Reinforcement Learning and How To Tune Them [25.782420501870295]
深層強化学習におけるハイパーパラメータの選択は,エージェントの最終的な性能とサンプル効率に大きな影響を及ぼすことを示す。我々は,シードのチューニングとテストの分離など,AutoMLから確立されたベストプラクティスを採用することを提案する。我々は、最先端のHPOツールを、RLアルゴリズムや環境を手作りのツールと比較することで、これをサポートする。
論文参考訳（メタデータ） (2023-06-02T07:48:18Z)
Two-step hyperparameter optimization method: Accelerating hyperparameter search by using a fraction of a training dataset [0.15420205433587747]
計算要求と待ち時間を抑制するための戦略的ソリューションとして,2段階のHPO法を提案する。我々は最近の2段階HPO法のエアロゾル活性化のためのニューラルネットワークエミュレータ開発への応用について述べる。
論文参考訳（メタデータ） (2023-02-08T02:38:26Z)
Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文参考訳（メタデータ） (2020-09-03T10:04:06Z)
HiPPO: Recurrent Memory with Optimal Polynomial Projections [93.3537706398653]
本稿では,連続信号と離散時系列をベースに投影してオンライン圧縮するための一般フレームワーク(HiPPO)を提案する。過去の各時間ステップの重要性を示す尺度が与えられた場合、HiPPOは自然なオンライン関数近似問題に対する最適解を生成する。このフォーマルなフレームワークは、すべての履歴を記憶するために時間をかけてスケールする新しいメモリ更新メカニズム(HiPPO-LegS)を提供する。
論文参考訳（メタデータ） (2020-08-17T23:39:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。