論文の概要: ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training
- arxiv url: http://arxiv.org/abs/2602.12691v1
- Date: Fri, 13 Feb 2026 07:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.883898
- Title: ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training
- Title(参考訳): ALOE:ビジョン・ランゲージ・アクション・モデルのための行動レベルオフポリティ評価
- Authors: Rushuai Yang, Hecheng Wang, Chiming Liu, Xiaohan Yan, Yunlong Wang, Xuan Du, Shuoyu Yue, Yongcheng Liu, Chuheng Zhang, Lizhe Qi, Yi Chen, Wei Shan, Maoqing Yao,
- Abstract要約: 本研究では,オンライン強化学習(RL)による大規模基盤視覚アクション(VLA)システムの改善方法について検討する。
実際には、値関数は異なるデータソースから収集された軌跡断片から推定される。
VLAポストトレーニングのためのアクションレベルオフポリシー評価フレームワークであるALOEを提案する。
- 参考スコア(独自算出の注目度): 15.70383059978939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to improve large foundation vision-language-action (VLA) systems through online reinforcement learning (RL) in real-world settings. Central to this process is the value function, which provides learning signals to guide VLA learning from experience. In practice, the value function is estimated from trajectory fragments collected from different data sources, including historical policies and intermittent human interventions. Estimating the value function of current behavior quality from the mixture data is inherently an off-policy evaluation problem. However, prior work often adopts conservative on-policy estimation for stability, which avoids direct evaluation of the current high-capacity policy and limits learning effectiveness. In this paper, we propose ALOE, an action-level off-policy evaluation framework for VLA post-training. ALOE applies chunking-based temporal-difference bootstrapping to evaluate individual action sequences instead of predicting final task outcomes. This design improves effective credit assignment to critical action chunks under sparse rewards and supports stable policy improvement. We evaluate our method on three real-world manipulation tasks, including smartphone packing as a high-precision task, laundry folding as a long-horizon deformable-object task, and bimanual pick-and-place involving multi-object perception. Across all tasks, ALOE improves learning efficiency without compromising execution speed, showing that off-policy RL can be reintroduced in a reliable manner for real-world VLA post-training. Videos and additional materials are available at our project website.
- Abstract(参考訳): 本研究では,オンライン強化学習(RL)による大規模基盤視覚言語行動(VLA)システムの改善方法について検討する。
このプロセスの中心はバリュー関数であり、経験からVLA学習を導くための学習信号を提供する。
実際には、その値関数は、歴史的方針や断続的な人間の介入を含む、異なるデータソースから収集された軌跡断片から推定される。
混合データから現在の行動品質の値関数を推定することは、本質的には政治外評価問題である。
しかし、先行研究はしばしば、現在の高容量政策の直接的な評価を回避し、学習効率を制限している、安定性に対する保守的なオン・ポリティクス推定を採用する。
本稿では,VLAポストトレーニングのための行動レベルオフポリシー評価フレームワークであるALOEを提案する。
ALOEはチャンキングベースの時間差ブートストラッピングを適用して、最終的なタスク結果を予測するのではなく、個々のアクションシーケンスを評価する。
この設計は、粗末な報酬の下で重要なアクションチャンクに対する効果的な信用割当を改善し、安定した政策改善をサポートする。
提案手法は,スマートフォンのパッケージングを高精度なタスクとして,洗濯の折り畳みを長軸変形可能なタスクとして,そして多対象知覚を伴う双方向のピック・アンド・プレイスという3つの実世界の操作タスクについて評価する。
全てのタスクにおいて、ALOEは実行速度を損なうことなく学習効率を向上し、現実のVLAポストトレーニングにおいて、オフポリティクスRLを信頼性の高い方法で再導入可能であることを示す。
ビデオと追加資料はプロジェクトのWebサイトにある。
関連論文リスト
- VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。