論文の概要: ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.23901v1
- Date: Fri, 27 Feb 2026 10:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.379209
- Title: ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation
- Title(参考訳): ABPolicy: リアルタイム・平滑なロボットマニピュレーションのための非同期B-スプラインフローポリシー
- Authors: Fan Yang, Peiguang Jing, Kaihua Qu, Ningyuan Zhao, Yuting Su,
- Abstract要約: ABPolicyは、B-スプライン制御ポイントアクション空間で動作するフローマッチングポリシーである。
非同期推論を活用することで、ABPolicyはリアルタイムの継続的更新を提供する。
実験結果から, ABPolicyは軌道ジャークを減少させ, よりスムーズな運動と性能向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 17.98625177131488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation requires policies that are smooth and responsive to evolving observations. However, synchronous inference in the raw action space introduces several challenges, including intra-chunk jitter, inter-chunk discontinuities, and stop-and-go execution. These issues undermine a policy's smoothness and its responsiveness to environmental changes. We propose ABPolicy, an asynchronous flow-matching policy that operates in a B-spline control-point action space. First, the B-spline representation ensures intra-chunk smoothness. Second, we introduce bidirectional action prediction coupled with refitting optimization to enforce inter-chunk continuity. Finally, by leveraging asynchronous inference, ABPolicy delivers real-time, continuous updates. We evaluate ABPolicy across seven tasks encompassing both static settings and dynamic settings with moving objects. Empirical results indicate that ABPolicy reduces trajectory jerk, leading to smoother motion and improved performance. Project website: https://teee000.github.io/ABPolicy/.
- Abstract(参考訳): ロボット操作は、スムーズで、進化する観察に反応するポリシーを必要とする。
しかし、生のアクション空間における同期推論は、チャンク内ジッタ、チャンク間不連続、ストップ・アンド・ゴーの実行などいくつかの問題を引き起こす。
これらの問題は、政策の滑らかさと環境変化に対する応答性を損なう。
本稿では,B-spline制御点アクション空間で動作する非同期フローマッチングポリシであるABPolicyを提案する。
まず、B-スプライン表現はチャンク内部の滑らかさを保証する。
第2に、両方向の動作予測と修正最適化を導入し、チャンク間連続性を強制する。
最後に、非同期推論を活用することで、ABPolicyはリアルタイムの継続的更新を提供する。
ABPolicyは静的設定と動的設定の両方を含む7つのタスクにまたがって評価する。
実験結果から, ABPolicyは軌道ジャークを減少させ, よりスムーズな運動と性能向上をもたらすことが示された。
プロジェクトWebサイト: https://teee000.github.io/ABPolicy/。
関連論文リスト
- Closed-Loop Action Chunks with Dynamic Corrections for Training-Free Diffusion Policy [52.106797722292896]
我々は,チャンクベースのアクション生成とリアルタイム修正を統合した動的クローズドループ拡散ポリシーフレームワークDCDPを提案する。
動的PushTシミュレーションでは、DCDPは5%の計算しか必要とせず、再トレーニングなしに適応性を19%改善する。
論文 参考訳(メタデータ) (2026-03-02T15:04:18Z) - Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows [11.159970460746164]
実世界のインタラクション予算の制限と多モードなアクション分布のため、厳密な操作ポリシーの現実世界の微調整は困難である。
正規化フロー(NF)を用いたサンプル効率の良いオフポリチック微調整フレームワークSOFT-FLOWを提案する。
これは、可能性に基づくマルチモーダルな生成ポリシーと、実際のロボットハードウェアにおけるチャンクレベルの価値学習を組み合わせた最初の実証である。
論文 参考訳(メタデータ) (2026-02-10T09:28:20Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Decoupled Q-Chunking [63.864222078287575]
チャンクされた批評家は、個々のアクションではなく、短いアクションシーケンス("チャンク")の価値を見積もって、価値のバックアップをスピードアップします。
私たちの重要な洞察は、批判者のチャンクの長さをポリシーのチャンクの長さから切り離すことで、ポリシーがより短いアクションチャンクを乗り越えることを可能にすることです。
この設計は、オープンループのサブ最適化と長いアクションチャンクに対するアクションチャンクポリシーの学習の難しさを両立させながら、マルチステップ値伝搬の利点を保っている。
論文 参考訳(メタデータ) (2025-12-11T18:52:51Z) - Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning [10.037416068775853]
本稿では,多段階フローマッチングポリシと蒸留ワンステップアクタを結合したガイドフローポリシーを提案する。
アクターは、重み付けされた振る舞いのクローンを通じてフローポリシーを指示し、データセットから高価値なアクションのクローンに集中する。
この相互誘導により、GFPは144の状態およびピクセルベースのタスクで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-12-03T17:05:58Z) - Improving Generative Behavior Cloning via Self-Guidance and Adaptive Chunking [29.920087317401396]
ジェネレーティブ・ビヘイビア・クローン(Generative Behavior Cloning)は、ロボット学習のためのシンプルで効果的なフレームワークである。
拡散政策の一貫性と反応性を高めるための2つの新しい手法を提案する。
提案手法は,多種多様なシミュレーションおよび実世界のロボット操作タスクにおいて,GBCの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-14T11:16:34Z) - Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。