論文の概要: Optimizing Task Completion Time Updates Using POMDPs
- arxiv url: http://arxiv.org/abs/2603.12340v2
- Date: Mon, 16 Mar 2026 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.69286
- Title: Optimizing Task Completion Time Updates Using POMDPs
- Title(参考訳): POMDPを用いたタスク完了時間更新の最適化
- Authors: Duncan Eddy, Esen Yel, Emma Passmore, Niles Egan, Grayson Armour, Dylan M. Asmar, Mykel J. Kochenderfer,
- Abstract要約: アナウンスされたタスク完了時間の管理は、プロジェクト管理における基本的な制御の問題である。
タスク発表問題を部分観測可能なマルコフ決定プロセス(POMDP)として定式化する。
報奨構造は、通知エラーと更新頻度の2つのコストを捕捉し、最適な通知制御ポリシーの合成を可能にする。
- 参考スコア(独自算出の注目度): 19.609728118458758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing announced task completion times is a fundamental control problem in project management. While extensive research exists on estimating task durations and task scheduling, the problem of when and how to update completion times communicated to stakeholders remains understudied. Organizations must balance announcement accuracy against the costs of frequent timeline updates, which can erode stakeholder trust and trigger costly replanning. Despite the prevalence of this problem, current approaches rely on static predictions or ad-hoc policies that fail to account for the sequential nature of announcement management. In this paper, we formulate the task announcement problem as a Partially Observable Markov Decision Process (POMDP) where the control policy must decide when to update announced completion times based on noisy observations of true task completion. Since most state variables (current time and previous announcements) are fully observable, we leverage the Mixed Observability MDP (MOMDP) framework to enable more efficient policy optimization. Our reward structure captures the dual costs of announcement errors and update frequency, enabling synthesis of optimal announcement control policies. Using off-the-shelf solvers, we generate policies that act as feedback controllers, adaptively managing announcements based on belief state evolution. Simulation results demonstrate significant improvements in both accuracy and announcement stability compared to baseline strategies, achieving up to 75\% reduction in unnecessary updates while maintaining or improving prediction accuracy.
- Abstract(参考訳): アナウンスされたタスク完了時間の管理は、プロジェクト管理における基本的な制御の問題である。
タスク期間とタスクスケジューリングの見積に関する広範な研究は存在するが、いつ、どのようにしてステークホルダーに伝達される完了時間を更新するかという問題は未検討のままである。
組織は、頻繁に更新されるタイムラインのコストに対して、発表の正確さをバランスさせなければなりません。
この問題の流行にもかかわらず、現在のアプローチは、発表管理のシーケンシャルな性質を説明できない静的な予測やアドホックなポリシーに依存している。
本稿では,タスク発表問題を部分観測可能なマルコフ決定プロセス (POMDP) として定式化し,真のタスク完了のノイズ観測に基づいて,その完了時期をいつ更新するかを制御ポリシーが決定しなければならない。
ほとんどの状態変数(現在の時間と以前の発表)は完全に観測可能であるので、より効率的なポリシー最適化を実現するために、Mixed Observability MDP (MOMDP) フレームワークを活用します。
報奨構造は、通知エラーと更新頻度の2つのコストを捕捉し、最適な通知制御ポリシーの合成を可能にする。
既成の解法を用いてフィードバックコントローラとして機能するポリシを生成し,信念状態の進化に基づく発表を適応的に管理する。
シミュレーション結果から,予測精度を維持したり向上させたりしながら,不必要な更新を最大75%削減した。
関連論文リスト
- TimeBill: Time-Budgeted Inference for Large Language Models [12.536212788514815]
大規模言語モデル(LLM)のための新しい時間予算推論フレームワークであるTimeBillを提案する。
より具体的には、LLMのエンドツーエンド実行時間を正確に予測する粒度応答長予測器(RLP)と実行時間推定器(ETE)を提案する。
次に、実行時間予測と所定の時間予算に基づいて、KVキャッシュ消去率を適応的に調整する、時間予算の効率的な推論手法を開発する。
論文 参考訳(メタデータ) (2025-12-26T04:49:35Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization [57.69385990442078]
大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
論文 参考訳(メタデータ) (2025-05-18T10:20:59Z) - Pull-Based Query Scheduling for Goal-Oriented Semantic Communication [14.787190731074322]
本稿では、プルベースステータス更新システムにおけるゴール指向セマンティック通信のためのクエリスケジューリングについて述べる。
本稿では,有効度尺度(GoE)を導入し,長期的有効性分析に累積的視点理論(CPT)を統合する。
本稿では、動的プログラミングに基づくモデルベースソリューションと、最先端の深層強化学習(DRL)アルゴリズムを用いたモデルフリーソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-09T18:51:14Z) - Integrated Push-and-Pull Update Model for Goal-Oriented Effective Communication [40.57990979803115]
センサエージェントがソースを観測し、アクティベーションエージェントに更新を生成し、送信するエンドツーエンドのステータス更新システムについて検討する。
我々はプッシュ・アンド・プル・モデルを得るためにプッシュ・アンド・プル・アップデート・コミュニケーション・モデルを統合する。
提案したプッシュ・アンド・プルモデルでは,プッシュ・アンド・プル・モデルはプッシュ・アンド・プル・ベースの更新のみに基づくモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-19T07:57:31Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Efficient Belief Space Planning in High-Dimensional State Spaces using
PIVOT: Predictive Incremental Variable Ordering Tactic [11.878820609988693]
我々は,不確実性の下でのオンライン意思決定の問題点を考察し,信頼空間における計画として定式化する。
このアプローチを PIVOT: Predictive Incremental Variable Ordering Tactic と呼ぶ。
この戦術を適用することで、状態推論の効率も向上する。
論文 参考訳(メタデータ) (2021-12-29T07:30:47Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。