Fugu-MT 論文翻訳(概要): Meta-Reinforcement Learning with Discrete World Models for Adaptive Load Balancing

論文の概要: Meta-Reinforcement Learning with Discrete World Models for Adaptive Load Balancing

arxiv url: http://arxiv.org/abs/2503.08872v1
Date: Tue, 11 Mar 2025 20:36:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.521881
Title: Meta-Reinforcement Learning with Discrete World Models for Adaptive Load Balancing
Title（参考訳）: 適応的負荷分散のための離散世界モデルを用いたメタ強化学習
Authors: Cameron Redovian,
Abstract要約: メタ強化学習アルゴリズムをDreamerV3アーキテクチャと統合して,オペレーティングシステムの負荷分散を改善する。このアプローチは、Advantage Actor-Critic(A2C)アルゴリズムを標準および適応トライアルで上回る、最小限の再トレーニングによる動的ワークロードへの迅速な適応を可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We integrate a meta-reinforcement learning algorithm with the DreamerV3 architecture to improve load balancing in operating systems. This approach enables rapid adaptation to dynamic workloads with minimal retraining, outperforming the Advantage Actor-Critic (A2C) algorithm in standard and adaptive trials. It demonstrates robust resilience to catastrophic forgetting, maintaining high performance under varying workload distributions and sizes. These findings have important implications for optimizing resource management and performance in modern operating systems. By addressing the challenges posed by dynamic and heterogeneous workloads, our approach advances the adaptability and efficiency of reinforcement learning in real-world system management tasks.
Abstract（参考訳）: メタ強化学習アルゴリズムをDreamerV3アーキテクチャと統合して,オペレーティングシステムの負荷分散を改善する。このアプローチは、Advantage Actor-Critic(A2C)アルゴリズムを標準および適応トライアルで上回る、最小限の再トレーニングによる動的ワークロードへの迅速な適応を可能にする。破滅的な忘れ物に対する堅牢なレジリエンスを示し、様々なワークロード分布とサイズの下で高いパフォーマンスを維持する。これらの知見は、現代のオペレーティングシステムにおけるリソース管理と性能の最適化に重要な意味を持つ。動的および異種ワークロードがもたらす課題に対処することにより、実世界のシステム管理タスクにおける強化学習の適応性と効率性を向上させる。

関連論文リスト

Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文参考訳（メタデータ） (2025-07-22T09:26:00Z)
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
Efficiency Robustness of Dynamic Deep Learning Systems [11.688510012136968]
動的ディープラーニングシステム(DDLS)は、入力の複雑さに基づいて計算を適応し、オーバーヘッドを低減します。本稿では,DDLSの効率性を体系的に検討し,効率攻撃の包括的分類を初めて提示する。我々はDDLSの効率を目標とする敵戦略を分析し、これらのシステムを確保する上で重要な課題を特定する。
論文参考訳（メタデータ） (2025-06-12T15:49:01Z)
On the Scaling of Robustness and Effectiveness in Dense Retrieval [111.58315434849047]
ロバストさと有効性は、現実世界のアプリケーションのための密集した検索モデルを開発する上で重要な側面である。最近の研究は、高密度検索における有効性のスケーリング法則に対処し、モデルとデータのサイズと有効性の間には、ゆるい関係があることを明らかにしている。堅牢性と有効性は異なるスケーリングパターンを示しており、両方を共同で改善する場合、かなりのリソースコストがかかります。
論文参考訳（メタデータ） (2025-05-30T06:57:27Z)
World Models as Reference Trajectories for Rapid Motor Adaptation [0.0]
リフレクティブ・ワールド・モデル(Reflexive World Models、RWM)は、世界モデル予測を暗黙の基準軌跡として使用し、迅速な適応を行うための二重制御フレームワークである。本手法は、強化学習とロバストモータ実行により、制御問題を長期報酬に分離する。
論文参考訳（メタデータ） (2025-05-21T14:46:41Z)
LADs: Leveraging LLMs for AI-Driven DevOps [3.240228178267042]
LADは、どの条件の下で最適化が機能するかを詳細に分析することで、構成最適化の原則化されたアプローチである。 Retrieval-Augmented Generation、Few-Shot Learning、Chain-of-Thought、Feedback-Based Prompt Chainingを活用することで、LADは正確な構成を生成し、デプロイメント障害から反復的に洗練されたシステム設定を学ぶ。我々の発見は、パフォーマンス、コスト、スケーラビリティのトレードオフに関する重要な洞察を明らかにし、実践者が異なるデプロイメントシナリオに対して適切な戦略を決定するのに役立つ。
論文参考訳（メタデータ） (2025-02-28T08:12:08Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文参考訳（メタデータ） (2025-01-14T04:35:37Z)
Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。 DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文参考訳（メタデータ） (2024-10-17T23:13:32Z)
A Dynamic Weighting Strategy to Mitigate Worker Node Failure in Distributed Deep Learning [3.0468273116892752]
本稿では分散ディープラーニングにおける様々な最適化手法について検討する。本稿では,障害によるトラグラーノードの問題を軽減するための動的重み付け手法を提案する。
論文参考訳（メタデータ） (2024-09-14T00:46:51Z)
Dynamic Corrective Self-Distillation for Better Fine-Tuning of Pretrained Models [0.9217021281095907]
プレトレーニング言語モデル(PLM)の伝達学習過程において発生する攻撃的微調整の問題に対処する。従来の機械学習における適応的強化法に着想を得て,PLMの微調整を改善するための効果的な動的補正自己蒸留手法を提案する。本手法は,各イテレーションにおいて,各データポイントに割り当てられた重みを動的に調整することにより,学生モデルが積極的に適応し,自己補正を行う自己蒸留機構を実行することを含む。
論文参考訳（メタデータ） (2023-12-12T07:26:36Z)
Orchestration of Emulator Assisted Mobile Edge Tuning for AI Foundation Models: A Multi-Agent Deep Reinforcement Learning Approach [10.47302625959368]
我々は,モバイルエッジコンピューティングと基礎モデルを統合した画期的なパラダイムを提示する。私たちのアプローチの中心はイノベーティブなEmulator-Adapterアーキテクチャであり、基礎モデルを2つの凝集モジュールに分割する。本稿では,分散環境におけるEmulator-Adapter構造のニーズに合わせて微調整された高度なリソース割り当て機構を提案する。
論文参考訳（メタデータ） (2023-10-26T15:47:51Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文参考訳（メタデータ） (2022-10-23T00:45:05Z)
Distributionally Adaptive Meta Reinforcement Learning [85.17284589483536]
テスト時間分布シフトの下で適切に振る舞うメタRLアルゴリズムのフレームワークを開発する。我々の枠組みは、分布のロバスト性に対する適応的なアプローチを中心とし、様々なレベルの分布シフトに対してロバストであるようメタポリスの人口を訓練する。本研究は, 分散シフト下での後悔を改善するための枠組みを示し, シミュレーションロボティクス問題に対する効果を実証的に示す。
論文参考訳（メタデータ） (2022-10-06T17:55:09Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。