論文の概要: Symphony: A Heuristic Normalized Calibrated Advantage Actor and Critic Algorithm in application for Humanoid Robots
- arxiv url: http://arxiv.org/abs/2512.10477v2
- Date: Sun, 14 Dec 2025 04:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 13:08:04.449746
- Title: Symphony: A Heuristic Normalized Calibrated Advantage Actor and Critic Algorithm in application for Humanoid Robots
- Title(参考訳): 交響曲:ヒューマノイドロボットのためのヒューマニズム正規化アドバンテージアクタと批判アルゴリズム
- Authors: Timur Ishuov, Michele Folgheraiter, Madi Nurmanov, Goncalo Gordo, Richárd Farkas, József Dombi,
- Abstract要約: スワドリング」正規化は、急速だが不安定な開発において、エージェントを抑える責任がある。
我々は、限られたパラメトリックノイズを設定し、アクションの強度を低下させ、エントロピーを安全に増加させました。
トレーニングは、周囲の環境とロボットのメカニズムの両方に対して、経験的にはるかに安全になる。
- 参考スコア(独自算出の注目度): 1.939575588469382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In our work we not explicitly hint that it is a misconception to think that humans learn fast. Learning process takes time. Babies start learning to move in the restricted liquid area called placenta. Children often are limited by underdeveloped body. Even adults are not allowed to participate in complex competitions right away. However, with robots, when learning from scratch, we often don't have the privilege of waiting for dozen millions of steps. "Swaddling" regularization is responsible for restraining an agent in rapid but unstable development penalizing action strength in a specific way not affecting actions directly. The Symphony, Transitional-policy Deterministic Actor and Critic algorithm, is a concise combination of different ideas for possibility of training humanoid robots from scratch with Sample Efficiency, Sample Proximity and Safety of Actions in mind. It is no secret that continuous increase in Gaussian noise without appropriate smoothing is harmful for motors and gearboxes. Compared to Stochastic algorithms, we set a limited parametric noise and promote a reduced strength of actions, safely increasing entropy, since the actions are kind of immersed in weaker noise. When actions require more extreme values, actions rise above the weak noise. Training becomes empirically much safer for both the environment around and the robot's mechanisms. We use Fading Replay Buffer: using a fixed formula containing the hyperbolic tangent, we adjust the batch sampling probability: the memory contains a recent memory and a long-term memory trail. Fading Replay Buffer allows us to use Temporal Advantage when we improve the current Critic Network prediction compared to the exponential moving average. Temporal Advantage allows us to update Actor and Critic in one pass, as well as combine Actor and Critic in one Object and implement their Losses in one line.
- Abstract(参考訳): 私たちの研究では、人間が速く学ぶのは誤解である、ということを明確に示していません。
学習には時間がかかる。
赤ちゃんは胎盤と呼ばれる制限された液体領域で動き始めます。
子供はしばしば未発達の身体によって制限される。
大人でもすぐに複雑な競技に参加することは許されない。
しかし、ロボットの場合、スクラッチから学ぶとき、私たちは何十万ものステップを待つ特権を持っていません。
スワドリング(スワドリング)正則化(スワドリング)は、反応に直接影響を与えない特定の方法で、急速だが不安定な発達のペナル化作用強度の抑制に責任がある。
Symphony, transitional-policy Deterministic Actor and Critic algorithmは、人間型ロボットをスクラッチからトレーニングするための様々なアイデアと、サンプル効率、サンプル近さ、アクションの安全性を念頭に置いた簡潔な組み合わせである。
適切な平滑化のないガウスノイズの連続的な増加がモータやギアボックスにとって有害であることは周知の事実である。
確率的アルゴリズムと比較して、動作は弱い雑音に浸漬されているため、パラメトリックノイズが制限され、動作の強度が低下し、エントロピーが安全に増大する。
アクションがより極端な値を必要とする場合、アクションは弱いノイズの上に立ち上がる。
トレーニングは、周囲の環境とロボットのメカニズムの両方に対して、経験的にはるかに安全になる。
Fading Replay Buffer: ハイパーボリックなタンジェントを含む固定式を使用して、バッチサンプリング確率を調整します。
Fading Replay Bufferは、指数的な移動平均よりも現在のCritic Network予測を改善する際に、時間的アドバンテージを利用することができます。
時間的アドバンテージにより、アクタと批判を1つのパスで更新し、アクタと批判を1つのオブジェクトで組み合わせて、1行でそれらのロバスを実装することができます。
関連論文リスト
- ViPRA: Video Prediction for Robot Actions [33.310474967770894]
我々は、アクションレスビデオから連続ロボット制御を学ぶためのフレームワークViPRA(Video Prediction for Robot Actions)を提案する。
アクションを直接予測する代わりに、将来の視覚的観察と動き中心の潜伏行動の両方を予測するためにビデオ言語モデルを訓練する。
下流制御では,潜時動作をロボット固有の連続動作シーケンスにマッピングするチャンクフローマッチングデコーダを導入する。
論文 参考訳(メタデータ) (2025-11-11T01:33:03Z) - X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations [12.375737659812344]
X-拡散(X-Diffusion)は、拡散政策を訓練するための原則的なフレームワークである。
動的に実現不可能な動作を学習することなく、人間のデータを最大限活用する。
X拡散は最良ベースラインよりも平均成功率が16%高い。
論文 参考訳(メタデータ) (2025-11-06T18:56:30Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers [19.097776174247244]
アクション・バリュー・グラディエント(AVG)は、新たなディープ・ポリシー・グラディエント法である。
インクリメンタルアップデートのみを使用して、実際のロボットによる効果的な深層強化学習を初めて示す。
論文 参考訳(メタデータ) (2024-11-22T22:46:21Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - No-Regret Learning in Games with Noisy Feedback: Faster Rates and
Adaptivity via Learning Rate Separation [76.61911795703062]
学習者が他の最適化エージェントと連続したゲームに関わった場合の後悔の問題を考察する。
この場合、全てのプレイヤーが非相対的アルゴリズムに従えば、完全に敵対する環境に対してかなり低い後悔を達成することができる。
本稿では,最悪とベストケースの後悔の保証を円滑に補間する完全適応手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T10:13:51Z) - Return-based Scaling: Yet Another Normalisation Trick for Deep RL [10.23482870046239]
スケールする問題は、強化学習の実践者にとって日常的だが刺激的である。
我々は,時間差学習に基づくエージェントについて再検討し,デシデラタをスケッチし,単純な修正が不足するシナリオを検討する。
私たちのスケーリング手法は、報酬スケールやディスカウントが異なる複数のターゲットで共有ニューラルネットワークをトレーニングする場合、干渉を軽減するのに特に役立ちます。
論文 参考訳(メタデータ) (2021-05-11T21:31:02Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。