論文の概要: SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.15605v1
- Date: Wed, 19 Nov 2025 16:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.90495
- Title: SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
- Title(参考訳): SRPO:ビジョンランゲージ・アクションモデルのための自己参照ポリシー最適化
- Authors: Senyu Fei, Siyin Wang, Li Ji, Ao Li, Shiduo Zhang, Liming Liu, Jinlong Hou, Jingjing Gong, Xianzhong Zhao, Xipeng Qiu,
- Abstract要約: VLA(Vision-Language-Action)モデルはロボット操作に優れるが、専門家によるデモンストレーションに大きく依存している。
グループベースの最適化手法を含む現在のVLA-RL法は、深刻な報酬の分散によって損なわれている。
本稿では,新しいVLA-RLフレームワークである自己参照ポリシー最適化(SRPO)を提案する。
- 参考スコア(独自算出の注目度): 42.89413870143421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models excel in robotic manipulation but are constrained by their heavy reliance on expert demonstrations, leading to demonstration bias and limiting performance. Reinforcement learning (RL) is a vital post-training strategy to overcome these limits, yet current VLA-RL methods, including group-based optimization approaches, are crippled by severe reward sparsity. Relying on binary success indicators wastes valuable information in failed trajectories, resulting in low training efficiency. To solve this, we propose Self-Referential Policy Optimization (SRPO), a novel VLA-RL framework. SRPO eliminates the need for external demonstrations or manual reward engineering by leveraging the model's own successful trajectories, generated within the current training batch, as a self-reference. This allows us to assign a progress-wise reward to failed attempts. A core innovation is the use of latent world representations to measure behavioral progress robustly. Instead of relying on raw pixels or requiring domain-specific fine-tuning, we utilize the compressed, transferable encodings from a world model's latent space. These representations naturally capture progress patterns across environments, enabling accurate, generalized trajectory comparison. Empirical evaluations on the LIBERO benchmark demonstrate SRPO's efficiency and effectiveness. Starting from a supervised baseline with 48.9% success, SRPO achieves a new state-of-the-art success rate of 99.2% in just 200 RL steps, representing a 103% relative improvement without any extra supervision. Furthermore, SRPO shows substantial robustness, achieving a 167% performance improvement on the LIBERO-Plus benchmark.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルはロボット操作に優れるが、専門家によるデモンストレーションに大きく依存しているため、実証バイアスや性能の制限につながる。
強化学習(Reinforcement Learning, RL)はこれらの限界を克服する上で重要な学習戦略である。
バイナリ成功インジケータの信頼性は、失敗した軌道上の貴重な情報を無駄にし、結果としてトレーニング効率が低下する。
そこで我々は,新しいVLA-RLフレームワークである自己参照ポリシー最適化(SRPO)を提案する。
SRPOは、現在のトレーニングバッチ内で生成されたモデル自身の軌道を自己参照として活用することで、外部デモや手動報酬エンジニアリングの必要性を排除します。
これにより、失敗した試みに進捗に関する報酬を割り当てることができます。
中心となる革新は、行動の進行をしっかりと測定するために潜在世界表現を使うことである。
生のピクセルに頼るか、ドメイン固有の微調整を必要とする代わりに、世界モデルの潜在空間から圧縮され転送可能なエンコーディングを利用する。
これらの表現は自然に環境全体の進行パターンを捉え、正確で一般化された軌道比較を可能にする。
LIBEROベンチマークの実証的な評価は、SRPOの効率性と有効性を示している。
48.9%の成功で監督されたベースラインから始めて、SRPOはわずか200のRLステップで99.2%の新しい最先端の成功率を達成し、追加の監督なしで103%の相対的な改善を示している。
さらに、SRPOはかなりの堅牢性を示し、LIBERO-Plusベンチマークで167%のパフォーマンス改善を実現している。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Self-Improving Vision-Language-Action Models with Data Generation via Residual RL [29.682761652941963]
Probe, Learn, Distill (PLD)は3段階のプラグイン・アンド・プレイフレームワークで、視覚言語アクションモデルを改善する。
PLDはLIBEROでほぼ飽和した99%のタスク成功、SimplerEnvで50%以上、実世界のFrankaとYAMのアーム操作タスクで100%成功している。
論文 参考訳(メタデータ) (2025-10-30T06:24:04Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。