論文の概要: Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy
- arxiv url: http://arxiv.org/abs/2511.20906v1
- Date: Tue, 25 Nov 2025 22:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.88658
- Title: Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy
- Title(参考訳): 制御ポリシにおける動的テスト時間計算スケーリング:難解な確率補間ポリシ
- Authors: Inkook Chun, Seungjae Lee, Michael S. Albergo, Saining Xie, Eric Vanden-Eijnden,
- Abstract要約: Difficulty-Aware Interpolant Policy (DA-SIP) は、ロボットコントローラがタスクの難易度に基づいて、リアルタイムで統合の地平線を適応的に調整できるフレームワークである。
DA-SIPは、最大計算ベースラインに匹敵するタスク成功率を維持しながら、合計時間の2.6-4.4倍の削減を実現している。
- 参考スコア(独自算出の注目度): 40.173458986694584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion- and flow-based policies deliver state-of-the-art performance on long-horizon robotic manipulation and imitation learning tasks. However, these controllers employ a fixed inference budget at every control step, regardless of task complexity, leading to computational inefficiency for simple subtasks while potentially underperforming on challenging ones. To address these issues, we introduce Difficulty-Aware Stochastic Interpolant Policy (DA-SIP), a framework that enables robotic controllers to adaptively adjust their integration horizon in real time based on task difficulty. Our approach employs a difficulty classifier that analyzes observations to dynamically select the step budget, the optimal solver variant, and ODE/SDE integration at each control cycle. DA-SIP builds upon the stochastic interpolant formulation to provide a unified framework that unlocks diverse training and inference configurations for diffusion- and flow-based policies. Through comprehensive benchmarks across diverse manipulation tasks, DA-SIP achieves 2.6-4.4x reduction in total computation time while maintaining task success rates comparable to fixed maximum-computation baselines. By implementing adaptive computation within this framework, DA-SIP transforms generative robot controllers into efficient, task-aware systems that intelligently allocate inference resources where they provide the greatest benefit.
- Abstract(参考訳): 拡散とフローに基づくポリシーは、長距離ロボット操作と模倣学習タスクにおける最先端のパフォーマンスを提供する。
しかし、これらのコントローラは、タスクの複雑さに関わらず、各制御ステップで固定された推論予算を採用しており、単純なサブタスクの計算不効率を招きながら、潜在的に難易度が低い。
これらの課題に対処するために,ロボットコントローラがタスクの難易度に基づいて,統合の地平線を適応的に調整できるフレームワークであるDifficulty-Aware Stochastic Interpolant Policy (DA-SIP)を導入する。
提案手法では,各制御サイクルにおけるステップ予算,最適解法変種,ODE/SDE統合を動的に選択するために,観測を解析する難易度分類器を用いる。
DA-SIPは確率補間式に基づいて構築され、拡散およびフローベースのポリシーのための多様なトレーニングと推論設定をアンロックする統一されたフレームワークを提供する。
様々な操作タスクにわたる包括的なベンチマークを通じて、DA-SIPは最大計算ベースラインに匹敵するタスク成功率を維持しながら、総計算時間の2.6-4.4倍の削減を実現している。
このフレームワーク内で適応的な計算を実装することで、DA-SIPは生成ロボットコントローラを、最大限の利益をもたらす推論リソースをインテリジェントに割り当てる、効率的なタスク認識システムに変換する。
関連論文リスト
- PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control [6.729634947284263]
本稿では, ニューラルネットワークアーキテクチャを応用し, 安定性と学習効率を向上させるために, TD3 の手法を統合した, 頑健なDeep Deterministic Policy gradient (RDDPG) というアルゴリズムを導入する。
提案アルゴリズムは、外乱に対する堅牢性の観点から他の制御手法よりも優れており、厳しい外乱条件下であっても移動目標の正確なリアルタイム追跡を可能にする。
論文 参考訳(メタデータ) (2025-02-28T13:58:22Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。