論文の概要: Agent-Driven Autonomous Reinforcement Learning Research: Iterative Policy Improvement for Quadruped Locomotion
- arxiv url: http://arxiv.org/abs/2603.27416v1
- Date: Sat, 28 Mar 2026 21:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.9479
- Title: Agent-Driven Autonomous Reinforcement Learning Research: Iterative Policy Improvement for Quadruped Locomotion
- Title(参考訳): エージェント駆動型自律強化学習研究:四足歩行の反復的政策改善
- Authors: Nimesh Khandelwal, Shakti S. Gupta,
- Abstract要約: 本稿では, エージェント駆動型自律強化学習研究における四足歩行のケーススタディについて述べる。
エージェントが実行ループの大部分を実行する間、人間はエージェントコーディング環境を通じて高レベルなディレクティブを提供した。
アイザック・ラボのDHAV1 12-DoFで、70以上の実験が14の波に編成され、初期の粗い地形の走行から7回ほどの平均的な報奨を得て、最高に記録された波動12回、exp063回、速度誤差0.263回と97%のタイムアウトを2000回以上行った。
- 参考スコア(独自算出の注目度): 14.484745002483258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper documents a case study in agent-driven autonomous reinforcement learning research for quadruped locomotion. The setting was not a fully self-starting research system. A human provided high-level directives through an agentic coding environment, while an agent carried out most of the execution loop: reading code, diagnosing failures, editing reward and terrain configurations, launching and monitoring jobs, analyzing intermediate metrics, and proposing the next wave of experiments. Across more than 70 experiments organized into fourteen waves on a DHAV1 12-DoF quadruped in Isaac Lab, the agent progressed from early rough-terrain runs with mean reward around 7 to a best logged Wave 12 run, exp063, with velocity error 0.263 and 97\% timeout over 2000 iterations, independently reproduced five times across different GPUs. The archive also records several concrete autonomous research decisions: isolating PhysX deadlocks to terrain sets containing boxes and stair-like primitives, porting four reward terms from openly available reference implementations \cite{deeprobotics, rlsar}, correcting Isaac Sim import and bootstrapping issues, reducing environment count for diagnosis, terminating hung runs, and pivoting effort away from HIM after repeated terrain=0.0 outcomes. Relative to the AutoResearch paradigm \cite{autoresearch}, this case study operates in a more failure-prone robotics RL setting with multi-GPU experiment management and simulator-specific engineering constraints. The contribution is empirical and documentary: it shows that an agent can materially execute the iterative RL research loop in this domain with limited human intervention, while also making clear where human direction still shaped the agenda.
- Abstract(参考訳): 本稿では, エージェント駆動型自律強化学習研究における四足歩行のケーススタディについて述べる。
この設定は完全な自己起動型研究システムではなかった。
エージェントはコードを読み、失敗を診断し、報酬と地形の設定を編集し、ジョブの起動と監視、中間メトリクスの分析、実験の次の波の提案を行う。
アイザックラボで四重奏されたDHAV1 12-DoFで、70以上の実験が14波に編成され、初期の粗いテランは7回ほどの平均的な報酬で実行され、最高ログのWave 12ランであるexp063に、ベロシティエラー0.263と97\%のタイムアウトが2000回にわたって発生し、異なるGPUで5回独立して再現された。
PhysXのデッドロックをボックスや階段のようなプリミティブを含む地形集合に分離し、オープンに利用可能な参照実装から4つの報酬項を移植する。
AutoResearchのパラダイムであるcite{autoresearch}とは対照的に、このケーススタディは、マルチGPU実験管理とシミュレータ固有のエンジニアリング制約を備えた、より障害を起こしやすいロボットRLで機能する。
この貢献は実証的でドキュメンタリーであり、エージェントがこの領域で人間の介入を限定して反復的なRL研究ループを実際に実行し、人間の指示がまだアジェンダを形作っているかを明らかにしている。
関連論文リスト
- OR-Agent: Bridging Evolutionary Search and Structured Research for Automated Algorithm Discovery [10.217363774023033]
OR-Agentは、リッチな実験環境における自動探査のために設計されたマルチエージェントの研究フレームワークである。
本稿では,研究開始点の進化的選択,総合的な研究計画生成,研究ツリー内の協調探索を統一する進化的システム機構を提案する。
我々は古典的最適化ベンチマーク(走行セールスマン、静電容量化車両ルーティング、ビンパッキング、オリエンテーリング、および複数のクナップサック問題を含む)およびシミュレーションに基づく協調運転シナリオを含む実験を行う。
論文 参考訳(メタデータ) (2026-02-14T13:32:03Z) - Towards an AI Fluid Scientist: LLM-Powered Scientific Discovery in Experimental Fluid Mechanics [4.399894932539609]
この研究は、完全な実験ワークフローを自律的に実行するAI Fluid Scientistフレームワークを提案する。
タンデムシリンダーの渦誘起振動 (VIV) と覚醒誘起振動 (WIV) について検討した。
論文 参考訳(メタデータ) (2025-12-04T12:02:35Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。