Fugu-MT 論文翻訳(概要): Hindsight Learning for MDPs with Exogenous Inputs

論文の概要: Hindsight Learning for MDPs with Exogenous Inputs

arxiv url: http://arxiv.org/abs/2207.06272v1
Date: Wed, 13 Jul 2022 15:18:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-14 12:21:00.238565
Title: Hindsight Learning for MDPs with Exogenous Inputs
Title（参考訳）: 外因性入力を持つMDPの視線学習
Authors: Sean R. Sinclair, Felipe Frujeri, Ching-An Cheng, Adith Swaminathan
Abstract要約: 逐次決定と不確実性を扱うアプリケーションのための強化学習フレームワークを開発する。本フレームワークは,政策訓練信号として後方最適行動を用い,意思決定性能に関する理論的確証を強く有する。
参考スコア（独自算出の注目度）: 18.112061285438863
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We develop a reinforcement learning (RL) framework for applications that deal with sequential decisions and exogenous uncertainty, such as resource allocation and inventory management. In these applications, the uncertainty is only due to exogenous variables like future demands. A popular approach is to predict the exogenous variables using historical data and then plan with the predictions. However, this indirect approach requires high-fidelity modeling of the exogenous process to guarantee good downstream decision-making, which can be impractical when the exogenous process is complex. In this work we propose an alternative approach based on hindsight learning which sidesteps modeling the exogenous process. Our key insight is that, unlike Sim2Real RL, we can revisit past decisions in the historical data and derive counterfactual consequences for other actions in these applications. Our framework uses hindsight-optimal actions as the policy training signal and has strong theoretical guarantees on decision-making performance. We develop an algorithm using our framework to allocate compute resources for real-world Microsoft Azure workloads. The results show our approach learns better policies than domain-specific heuristics and Sim2Real RL baselines.
Abstract（参考訳）: 我々は,資源配分や在庫管理など,逐次決定や外因性不確実性を扱うアプリケーションのための強化学習(RL)フレームワークを開発する。これらのアプリケーションでは、不確実性は将来の要求のような外因性変数によってのみ生じる。一般的なアプローチは、履歴データを使用して外因性変数を予測し、その予測で計画する。しかし、この間接的アプローチでは、下流の優れた意思決定を保証するために、外因性プロセスの高忠実性モデリングが必要である。本研究では,外因性プロセスのモデル化を側面から行う,後向き学習に基づく代替手法を提案する。我々の重要な洞察は、Sim2Real RLとは異なり、過去の決定を過去のデータで再考し、これらのアプリケーションにおける他のアクションに対する反実的な結果をもたらすことができるということです。本フレームワークは,政策訓練信号として後方最適行動を用い,意思決定性能に関する理論的確証が強い。現実世界のMicrosoft Azureワークロードに計算リソースを割り当てるアルゴリズムを開発した。その結果,本手法はドメイン固有のヒューリスティックスやSim2Real RLベースラインよりも優れたポリシーを学習できることがわかった。

関連論文リスト

Learning Optimal and Sample-Efficient Decision Policies with Guarantees [3.096615629099617]
この論文は、隠れた共同創設者の存在下で、オフラインデータセットから学ぶことの問題を解決する。コンバージェンスと最適性を保証する条件付きモーメント制約問題の解法として,サンプル効率のアルゴリズムを導出する。また,収束率保証を伴う効果的な模倣者ポリシーを学習するアルゴリズムも開発している。
論文参考訳（メタデータ） (2026-02-20T04:24:49Z)
Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-10-07T17:49:24Z)
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
Explainable AI for UAV Mobility Management: A Deep Q-Network Approach for Handover Minimization [4.7430397428031785]
本稿では、さまざまな状態パラメータがハンドオーバ決定にどのように影響するかについて、より深い洞察を提供するための、説明可能なAI(XAI)フレームワークを紹介する。参照信号受信電力(RSRP)などの重要な特徴の影響を定量化することにより、RLベースのハンドオーバソリューションの解釈可能性と信頼性を向上させる。
論文参考訳（メタデータ） (2025-04-25T14:11:51Z)
FedMHO: Heterogeneous One-Shot Federated Learning Towards Resource-Constrained Edge Devices [12.08958206272527]
フェデレートラーニング(FL)はエッジコンピューティングのシナリオにおいてますます採用され、多くの異種クライアントが制約や十分なリソースの下で運用されている。ワンショットFLは通信オーバーヘッドを軽減するための有望なアプローチとして登場し、モデルヘテロジニアスFLはクライアント間の多様なコンピューティングリソースの問題を解決する。本稿では,リソースに制約のあるデバイス上で,リソースに十分なクライアントと軽量な生成モデルに対して,詳細な分類モデルを活用するFedMHOという新しいFLフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T15:54:56Z)
Deep Reinforcement Learning for Job Scheduling and Resource Management in Cloud Computing: An Algorithm-Level Review [10.015735252600793]
深層強化学習(Dep Reinforcement Learning, DRL)は、これらの課題に対する有望な解決策として登場した。 DRLにより、システムは環境の継続的な観察に基づいてポリシーを学習し、適応することができる。この調査は、クラウドコンピューティングにおけるジョブスケジューリングとリソース管理のためのDRLベースのアルゴリズムの包括的なレビューを提供する。
論文参考訳（メタデータ） (2025-01-02T02:08:00Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。本稿では,Active-Acquisition POMDPを提案する。積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文参考訳（メタデータ） (2024-10-04T19:48:23Z)
Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution [38.53065398127086]
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討する。我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
論文参考訳（メタデータ） (2024-09-25T09:50:51Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文参考訳（メタデータ） (2023-12-01T01:30:49Z)
Zero-knowledge Proof Meets Machine Learning in Verifiability: A Survey [19.70499936572449]
高品質なモデルは、効率的な最適化アルゴリズムだけでなく、膨大なデータと計算能力に基づいて構築されたトレーニングと学習プロセスにも依存する。計算リソースの制限やデータプライバシの懸念など,さまざまな課題があるため,モデルを必要とするユーザは,マシンラーニングモデルをローカルにトレーニングすることはできないことが多い。本稿では,ゼロ知識証明に基づく検証可能な機械学習(ZKP-VML)技術について包括的に調査する。
論文参考訳（メタデータ） (2023-10-23T12:15:23Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Forecasting Workload in Cloud Computing: Towards Uncertainty-Aware Predictions and Transfer Learning [1.5749416770494704]
予測の不確かさをモデル化することは、性能に肯定的な影響を及ぼすことを示す。モデルが異なるドメイン間での伝達学習能力に有益かどうかを検討する。
論文参考訳（メタデータ） (2023-02-24T14:51:30Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。