論文の概要: Delay-Aware Diffusion Policy: Bridging the Observation-Execution Gap in Dynamic Tasks
- arxiv url: http://arxiv.org/abs/2512.07697v1
- Date: Mon, 08 Dec 2025 16:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.963939
- Title: Delay-Aware Diffusion Policy: Bridging the Observation-Execution Gap in Dynamic Tasks
- Title(参考訳): 遅延対応拡散政策:動的タスクにおける観測・実行ギャップのブリッジ化
- Authors: Aileen Liao, Dong-Ki Kim, Max Olan Smith, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei,
- Abstract要約: 政策学習に推論遅延を明示的に組み込むためのフレームワークである遅延認識拡散政策(DA-DP)を紹介する。
DA-DPはゼロ遅延軌道を遅延補償軌道に補正し、遅延条件でポリシーを補強する。
我々は,様々なタスク,ロボット,遅延に対して,DA-DPを実証的に検証し,その成功率が遅延に気付かない方法よりも高いことを示す。
- 参考スコア(独自算出の注目度): 11.985096734655079
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As a robot senses and selects actions, the world keeps changing. This inference delay creates a gap of tens to hundreds of milliseconds between the observed state and the state at execution. In this work, we take the natural generalization from zero delay to measured delay during training and inference. We introduce Delay-Aware Diffusion Policy (DA-DP), a framework for explicitly incorporating inference delays into policy learning. DA-DP corrects zero-delay trajectories to their delay-compensated counterparts, and augments the policy with delay conditioning. We empirically validate DA-DP on a variety of tasks, robots, and delays and find its success rate more robust to delay than delay-unaware methods. DA-DP is architecture agnostic and transfers beyond diffusion policies, offering a general pattern for delay-aware imitation learning. More broadly, DA-DP encourages evaluation protocols that report performance as a function of measured latency, not just task difficulty.
- Abstract(参考訳): ロボットが検知して行動を選択すると、世界は変化し続ける。
この推論遅延は、観測された状態と実行時の状態の間に数十から数百ミリ秒のギャップを生じる。
本研究では,学習と推論において,ゼロ遅延から測定遅延への自然な一般化を例に挙げる。
政策学習に推論遅延を明示的に組み込むためのフレームワークである遅延認識拡散政策(DA-DP)を紹介する。
DA-DPはゼロ遅延軌道を遅延補償軌道に補正し、遅延条件でポリシーを補強する。
我々は,様々なタスク,ロボット,遅延に対して,DA-DPを実証的に検証し,その成功率が遅延に気付かない方法よりも高いことを示す。
DA-DPはアーキテクチャ非依存であり、拡散ポリシーを超えて伝達し、遅延認識模倣学習のための一般的なパターンを提供する。
より広範に、DA-DPはタスクの難易度だけでなく、測定レイテンシの関数としてパフォーマンスを報告する評価プロトコルを奨励している。
関連論文リスト
- Adaptive Reinforcement Learning for Unobservable Random Delays [46.04329493317009]
本稿では,エージェントが観測不能かつ時間変化の遅れを適応的に処理できる汎用フレームワークを提案する。
具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。
提案手法は,幅広いベンチマーク環境において,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-17T11:11:37Z) - Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating Delayed Observation [10.511062258286335]
実世界のマルチエージェントシステムでは、観測遅延はユビキタスであり、エージェントが環境の真の状態に基づいて決定を下すのを防ぐ。
遅延特性の異なるこれらの離散観測成分は、マルチエージェント強化学習において重要な課題である。
まず、分散化された個別遅延部分観測可能決定プロセス(DSID-POMDP)を標準のDec-POMDPを拡張して定式化する。
次に、個々の遅延に対処するためのRainbow Delay Compensation (RDC)フレームワークを提案し、構成モジュールの実装を推奨する。
論文 参考訳(メタデータ) (2025-05-06T14:47:56Z) - DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。
様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-05T09:45:26Z) - Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。
観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。
我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文 参考訳(メタデータ) (2024-04-08T12:19:04Z) - Delays in Reinforcement Learning [2.5835347022640254]
この論文は、エージェントの環境状態の観察やエージェントの行動の実行の遅延を研究することを目的としている。
幅広い遅延が考慮され、潜在的な解決策が提示される。
論文 参考訳(メタデータ) (2023-09-20T07:04:46Z) - MTD: Multi-Timestep Detector for Delayed Streaming Perception [0.5439020425819]
ストリーミング知覚は、自律運転システムの遅延と精度を評価するために使用される、世界の現在の状態を報告するタスクである。
本稿では,マルチブランチ将来の予測に動的ルーティングを利用するエンドツーエンド検出器MTDを提案する。
提案手法はArgoverse-HDデータセットを用いて評価され,実験結果から,様々な遅延設定における最先端性能が得られたことが示された。
論文 参考訳(メタデータ) (2023-09-13T06:23:58Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。