論文の概要: Using reinforcement learning to probe the role of feedback in skill acquisition
- arxiv url: http://arxiv.org/abs/2512.08463v1
- Date: Tue, 09 Dec 2025 10:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.922116
- Title: Using reinforcement learning to probe the role of feedback in skill acquisition
- Title(参考訳): 強化学習を用いた技能習得におけるフィードバックの役割の探索
- Authors: Antonio Terpin, Raffaello D'Andrea,
- Abstract要約: 多くの高性能な人間の活動は、ほとんどまたは全く外部からのフィードバックなしで実行される。
完全に制御された条件下でのスキル獲得の過程を研究するため、被験者をバイパスする。
我々は, 抵抗を最大又は最小にするために, 強化学習剤と回転シリンダーを接続する。
- 参考スコア(独自算出の注目度): 4.740491145467995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many high-performance human activities are executed with little or no external feedback: think of a figure skater landing a triple jump, a pitcher throwing a curveball for a strike, or a barista pouring latte art. To study the process of skill acquisition under fully controlled conditions, we bypass human subjects. Instead, we directly interface a generalist reinforcement learning agent with a spinning cylinder in a tabletop circulating water channel to maximize or minimize drag. This setup has several desirable properties. First, it is a physical system, with the rich interactions and complex dynamics that only the physical world has: the flow is highly chaotic and extremely difficult, if not impossible, to model or simulate accurately. Second, the objective -- drag minimization or maximization -- is easy to state and can be captured directly in the reward, yet good strategies are not obvious beforehand. Third, decades-old experimental studies provide recipes for simple, high-performance open-loop policies. Finally, the setup is inexpensive and far easier to reproduce than human studies. In our experiments we find that high-dimensional flow feedback lets the agent discover high-performance drag-control strategies with only minutes of real-world interaction. When we later replay the same action sequences without any feedback, we obtain almost identical performance. This shows that feedback, and in particular flow feedback, is not needed to execute the learned policy. Surprisingly, without flow feedback during training the agent fails to discover any well-performing policy in drag maximization, but still succeeds in drag minimization, albeit more slowly and less reliably. Our studies show that learning a high-performance skill can require richer information than executing it, and learning conditions can be kind or wicked depending solely on the goal, not on dynamics or policy complexity.
- Abstract(参考訳): フィギュアスケート選手がトリプルジャンプに着陸すること、ピッチャーがストライクのためにカーブボールを投げること、ラテアートを注ぐバリスタを思い浮かべること、など。
完全に制御された条件下でのスキル獲得の過程を研究するため、被験者をバイパスする。
代わりに、汎用強化学習剤をテーブルトップ循環水路内の回転シリンダーと直接接続して、ドラッグを最大化または最小化する。
この設定にはいくつかの望ましい性質がある。
フローは非常にカオス的で、不可能ではないとしても、正確にモデル化したり、シミュレートしたりするのは非常に困難である。
第二に、ドラッグの最小化や最大化という目的は簡単に記述でき、報酬に直接キャプチャできるが、優れた戦略は事前に明らかではない。
第三に、数十年にわたる実験的研究は、シンプルで高性能なオープンループポリシーのレシピを提供している。
最後に、セットアップは安価で、人間の研究よりもずっと簡単に再現できる。
実験の結果,高次元フローフィードバックにより,エージェントは実世界のインタラクションの数分で,高性能なドラッグコントロール戦略を発見できることがわかった。
その後、フィードバックなしで同じアクションシーケンスを再生すると、ほぼ同じ性能が得られる。
これは、学習したポリシーを実行するのにフィードバック、特にフローフィードバックは必要ないことを示している。
驚くべきことに、トレーニング中にフローフィードバックがなければ、エージェントはドラッグの最大化において良好なパフォーマンスのポリシーを見つけることができず、ドラッグの最小化には成功するが、よりゆっくりで信頼性の低いものとなる。
本研究は,ハイパフォーマンスなスキルを習得するには,それを実行するよりも豊富な情報を必要とすることを示し,学習条件は,ダイナミックスやポリシーの複雑さではなく,目標のみに依存して,親切にあるいは悪用できることを示した。
関連論文リスト
- Exploiting Policy Idling for Dexterous Manipulation [19.909895138745345]
本研究では, アイドリング行動の検出可能性を活用して, 探索と政策改善を通知する方法について検討する。
PIP(Pause-induced Perturbations)は,検出したアイドリング状態に摂動を適用したアプローチである。
シミュレーションされた2つのアームタスクにおいて、この単純なアプローチはテスト時間性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2025-08-21T15:52:45Z) - Latent Action Priors for Locomotion with Deep Reinforcement Learning [42.642008092347986]
深層強化学習(DRL)は、ロボットが環境との相互作用を通じて複雑な行動を学ぶことを可能にする。
本稿では,特にトルク制御に有用な移動学習のための帰納バイアスを提案する。
エージェントは実演の報酬レベルに制限されず、転送タスクの性能は大幅に向上する。
論文 参考訳(メタデータ) (2024-10-04T09:10:56Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - DiffMimic: Efficient Motion Mimicking with Differentiable Physics [41.442225872857136]
我々は微分可能な物理シミュレータ(DPS)を活用し、DiffMimicと呼ばれる効率的な運動模倣法を提案する。
我々の重要な洞察は、DPSが複雑なポリシー学習タスクを、より単純な状態マッチング問題に向けていることです。
標準ベンチマークでの大規模な実験は、DiffMimicが既存の方法よりもサンプル効率と時間効率が優れていることを示している。
論文 参考訳(メタデータ) (2023-04-06T17:56:22Z) - Developing Driving Strategies Efficiently: A Skill-Based Hierarchical
Reinforcement Learning Approach [0.7373617024876725]
強化学習はドライバポリシをモデル化するための一般的なツールです。
動作プリミティブを高レベルなアクションとして設計し,使用する,スキルベースの"階層駆動戦略を提案する。
論文 参考訳(メタデータ) (2023-02-04T15:09:51Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。