論文の概要: Flow Policy Gradients for Robot Control
- arxiv url: http://arxiv.org/abs/2602.02481v1
- Date: Mon, 02 Feb 2026 18:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.38875
- Title: Flow Policy Gradients for Robot Control
- Title(参考訳): ロボット制御のためのフローポリシー勾配
- Authors: Brent Yi, Hongsuk Choi, Himanshu Gaurav Singh, Xiaoyu Huang, Takara E. Truong, Carmelo Sferrazza, Yi Ma, Rocky Duan, Pieter Abbeel, Guanya Shi, Karen Liu, Angjoo Kanazawa,
- Abstract要約: フローマッチングポリシ勾配は、より表現力のあるポリシのトレーニングと微調整に有効である。
我々は、スクラッチからトレーニングを行う際に、フロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善する。
- 参考スコア(独自算出の注目度): 67.61978635211048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Likelihood-based policy gradient methods are the dominant approach for training robot control policies from rewards. These methods rely on differentiable action likelihoods, which constrain policy outputs to simple distributions like Gaussians. In this work, we show how flow matching policy gradients -- a recent framework that bypasses likelihood computation -- can be made effective for training and fine-tuning more expressive policies in challenging robot control settings. We introduce an improved objective that enables success in legged locomotion, humanoid motion tracking, and manipulation tasks, as well as robust sim-to-real transfer on two humanoid robots. We then present ablations and analysis on training dynamics. Results show how policies can exploit the flow representation for exploration when training from scratch, as well as improved fine-tuning robustness over baselines.
- Abstract(参考訳): 報酬からロボット制御ポリシーを訓練する手段としては、いいね! ベースのポリシー勾配法が主流である。
これらの方法は、政策出力をガウスのような単純な分布に制約する微分可能な行動可能性に依存する。
本研究では,ロボット制御設定に挑戦する上で,フローマッチングポリシの勾配,すなわち可能性計算をバイパスする最近のフレームワークが,より表現力のあるポリシのトレーニングや微調整に有効であることを示す。
本研究では,足の移動,ヒューマノイド運動追跡,操作作業,および2つのヒューマノイドロボットにおけるロバストなシミュレート・トゥ・リアルな移動を実現するための改良された目標を提案する。
次に、トレーニングダイナミクスに関する説明と分析を行う。
結果は、スクラッチからトレーニングする際のフロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善した。
関連論文リスト
- Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills [58.73043119128804]
そこで本研究では,Kungfuやダンスなどの人体動作を高度に制御することを目的とした,物理学に基づくヒューマノイド制御フレームワークを提案する。
動作処理では,運動の抽出,フィルタリング,修正,再ターゲティングを行うパイプラインを設計し,物理的制約の遵守を確実にする。
動作模倣では、二段階最適化問題を定式化し、追従精度の許容度を動的に調整する。
実験では,高ダイナミックな動作のセットを模倣するために全身制御ポリシーを訓練する。
論文 参考訳(メタデータ) (2025-06-15T13:58:53Z) - Mobi-$π$: Mobilizing Your Robot Learning Policy [13.718887275978092]
そこで本研究では,ロボットのベースポーズを最適化し,学習したポリシーに適合させることにより,ナビゲーションと操作をブリッジする新しいポリシーモビライゼーション手法を提案する。
提案手法は,3次元ガウススプラッティングを新しいビュー合成,ポーズ適合性評価のためのスコア関数,最適なロボットポーズを特定するためのサンプリングベース最適化に活用する。
論文 参考訳(メタデータ) (2025-05-29T17:27:54Z) - Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning [5.760394464143113]
本稿では,障害物を敵エージェントとしてモデル化するトレーニングプロセスにより,ロバスト性のあるナビゲーションポリシーを実現する新しい手法を提案する。
我々はこの手法を、量子応答適応強化学習(Hi-QARL)による多元的ポリシーと呼ぶ。
論文 参考訳(メタデータ) (2025-03-14T14:54:02Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Human-AI Shared Control via Frequency-based Policy Dissection [34.0399894373716]
人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。
我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
論文 参考訳(メタデータ) (2022-05-31T23:57:55Z) - End-to-end grasping policies for human-in-the-loop robots via deep
reinforcement learning [24.407804468007228]
最新の人間インザループロボットの把握は、EMG(Electromy robustness)推論の問題に大きく苦しんでいます。
本研究では,現実の到達軌道を捉えたループ内ロボットのポリシーをエンドツーエンドでトレーニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-26T19:39:23Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。