論文の概要: Tune to Learn: How Controller Gains Shape Robot Policy Learning
- arxiv url: http://arxiv.org/abs/2604.02523v1
- Date: Thu, 02 Apr 2026 21:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.208033
- Title: Tune to Learn: How Controller Gains Shape Robot Policy Learning
- Title(参考訳): Tune to Learn: コントローラがロボットのポリシー学習を形作る方法
- Authors: Antonia Bronars, Younghyo Park, Pulkit Agrawal,
- Abstract要約: 本研究では,現代ロボット学習パイプラインの3つのコアコンポーネントに対して,位置制御器の利得がどのような影響を及ぼすかを検討する。
最適なゲイン選択は、望ましいタスクの振る舞いではなく、採用される学習パラダイムに依存する。
- 参考スコア(独自算出の注目度): 10.40212832696223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Position controllers have become the dominant interface for executing learned manipulation policies. Yet a critical design decision remains understudied: how should we choose controller gains for policy learning? The conventional wisdom is to select gains based on desired task compliance or stiffness. However, this logic breaks down when controllers are paired with state-conditioned policies: effective stiffness emerges from the interplay between learned reactions and control dynamics, not from gains alone. We argue that gain selection should instead be guided by learnability: how amenable different gain settings are to the learning algorithm in use. In this work, we systematically investigate how position controller gains affect three core components of modern robot learning pipelines: behavior cloning, reinforcement learning from scratch, and sim-to-real transfer. Through extensive experiments across multiple tasks and robot embodiments, we find that: (1) behavior cloning benefits from compliant and overdamped gain regimes, (2) reinforcement learning can succeed across all gain regimes given compatible hyperparameter tuning, and (3) sim-to-real transfer is harmed by stiff and overdamped gain regimes. These findings reveal that optimal gain selection depends not on the desired task behavior, but on the learning paradigm employed. Project website: https://younghyopark.me/tune-to-learn
- Abstract(参考訳): 位置コントローラは、学習された操作ポリシーを実行するための支配的なインターフェースとなっている。
しかし、重要な設計決定はまだ検討されていない。政策学習のためのコントロールゲインをどのように選ぶべきか?
従来の知恵は、望ましいタスクコンプライアンスや硬さに基づいて利得を選択することである。
しかし、この論理は、コントローラーが状態条件付きポリシーとペアリングされたときに崩壊する: 効果的な剛性は、学習された反応と制御力学の間の相互作用から生じ、利得だけでは成立しない。
我々は、ゲイン選択は学習可能性によってガイドされるべきであると主張する。
本研究では,現代のロボット学習パイプラインの3つのコアコンポーネントである行動クローニング,スクラッチからの強化学習,シム・トゥ・リアル・トランスファーに対する位置制御器の利得が,どのように影響するかを系統的に検討する。
複数のタスクやロボットの具体化に関する広範な実験を通して、(1)従順で過大なゲインレジームによる行動クローン効果、(2)高パラメータチューニングに適合するすべてのゲインレジームで強化学習が成功し、(3)シム・トゥ・リアルトランスファーは強固で過大なゲインレジームによって損なわれることが判明した。
これらの結果から,最適利得選択は望ましい課題行動ではなく,採用する学習パラダイムに依存することが明らかとなった。
プロジェクトウェブサイト:https://younghyopark.me/tune-to-learn
関連論文リスト
- Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - A comparison of controller architectures and learning mechanisms for
arbitrary robot morphologies [2.884244918665901]
学習ロボットの形態が事前に分かっていない場合、ロボットコントローラと学習方法の組み合わせはどのように使うべきか。
我々は3つのコントローラとラーナーの組み合わせを実験的に比較した。
有効性、効率、堅牢性を比較します。
論文 参考訳(メタデータ) (2023-09-25T07:11:43Z) - Deep Q-learning: a robust control approach [4.125187280299247]
ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。
周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。
OpenAI Gym環境における数値シミュレーションにより,$mathcalH_infty$制御学習はDouble Deep Q-learningよりも若干優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-01-21T09:47:34Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Teaching a Robot to Walk Using Reinforcement Learning [0.0]
強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
論文 参考訳(メタデータ) (2021-12-13T21:35:45Z) - Real-World Dexterous Object Manipulation based Deep Reinforcement
Learning [3.4493195428573613]
ロボットの制御に深層強化学習を用いる方法を示す。
この枠組みは, 深層強化学習の低サンプリング効率の欠点を低減させる。
我々のアルゴリズムはシミュレーションで訓練され、微調整なしで現実に移行した。
論文 参考訳(メタデータ) (2021-11-22T02:48:05Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文 参考訳(メタデータ) (2020-10-16T08:58:24Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。