論文の概要: ARM: Advantage Reward Modeling for Long-Horizon Manipulation
- arxiv url: http://arxiv.org/abs/2604.03037v1
- Date: Fri, 03 Apr 2026 13:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.481992
- Title: ARM: Advantage Reward Modeling for Long-Horizon Manipulation
- Title(参考訳): ARM: 長距離操作のためのアドバンテージ・リワード・モデリング
- Authors: Yiming Mao, Zixi Yu, Weixin Mao, Yinhao Li, Qirui Hu, Zihan Lan, Minzhao Zhu, Hua Chen,
- Abstract要約: 本稿では,絶対的な進歩から相対的な優位性を推定するフレームワークを提案する。
我々は,高いアノテータの整合性を確保しつつ,人間の認知的オーバーヘッドを低減し,費用対効果の高い三状態ラベリング戦略を導入する。
提案手法は,従来のVLAベースラインよりも安定性とデータ効率が向上し,政策訓練中にほぼゼロに近い介入を施した長軸タオルフォールディング作業において,99.4%の成功率を達成した。
- 参考スコア(独自算出の注目度): 7.739778332184609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon robotic manipulation remains challenging for reinforcement learning (RL) because sparse rewards provide limited guidance for credit assignment. Practical policy improvement thus relies on richer intermediate supervision, such as dense progress rewards, which are costly to obtain and ill-suited to non-monotonic behaviors such as backtracking and recovery. To address this, we propose Advantage Reward Modeling (ARM), a framework that shifts from hard-to-quantify absolute progress to estimating relative advantage. We introduce a cost-effective tri-state labeling strategy -- Progressive, Regressive, and Stagnant -- that reduces human cognitive overhead while ensuring high cross-annotator consistency. By training on these intuitive signals, ARM enables automated progress annotation for both complete demonstrations and fragmented DAgger-style data. Integrating ARM into an offline RL pipeline allows for adaptive action-reward reweighting, effectively filtering suboptimal samples. Our approach achieves a 99.4% success rate on a challenging long-horizon towel-folding task, demonstrating improved stability and data efficiency over current VLA baselines with near-zero human intervention during policy training.
- Abstract(参考訳): 補助学習(RL)では、報酬が少なすぎるため、長期のロボット操作は依然として困難である。
したがって、政策改善は、バックトラックやリカバリのような非単調な行動に適合しない、高密度な進歩報酬のようなより豊かな中間的な監督に依存している。
これを解決するために、我々はAdvantage Reward Modeling (ARM)を提案する。
コスト効率のよい三状態ラベリング戦略であるProgressive、Regressive、Stagnantを導入します。
これらの直感的な信号のトレーニングにより、ARMは完全なデモと断片化されたDAggerスタイルのデータの両方に対する自動プログレスアノテーションを可能にする。
ARMをオフラインのRLパイプラインに統合することで、適応的なアクション・リワードのリウェイトが可能で、最適なサブサンプルを効果的にフィルタリングすることができる。
提案手法は,従来のVLAベースラインよりも安定性とデータ効率が向上し,政策訓練中にほぼゼロに近い介入を施した長軸タオルフォールディング作業において,99.4%の成功率を達成した。
関連論文リスト
- Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。
GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。
それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-11T08:41:34Z) - SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models [42.89413870143421]
VLA(Vision-Language-Action)モデルはロボット操作に優れるが、専門家によるデモンストレーションに大きく依存している。
グループベースの最適化手法を含む現在のVLA-RL法は、深刻な報酬の分散によって損なわれている。
本稿では,新しいVLA-RLフレームワークである自己参照ポリシー最適化(SRPO)を提案する。
論文 参考訳(メタデータ) (2025-11-19T16:52:23Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。