論文の概要: EvoVLA: Self-Evolving Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2511.16166v1
- Date: Thu, 20 Nov 2025 09:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.54923
- Title: EvoVLA: Self-Evolving Vision-Language-Action Model
- Title(参考訳): EvoVLA: 自己進化型ビジョンランゲージ・アクションモデル
- Authors: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang,
- Abstract要約: VLA(Vision-Language-Action)モデルでは、長い水平ロボット操作が依然として難しい。
本稿では,3つの相補的コンポーネントを通じてこの問題に対処する自己教師型VLAフレームワークであるEvoVLAを紹介する。
EvoVLAはサンプル効率を1対半改善し、ステージ幻覚を38.5%から14.8%に下げる。
- 参考スコア(独自算出の注目度): 11.746804244345613
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
- Abstract(参考訳): ゼロショットの一般化や実世界へのシミュレーション・トゥ・ワールド・トランスファーの進展にもかかわらず、ビジョン・ランゲージ・アクション(VLA)モデルでは、長い水平ロボット操作は依然として困難である。
現在のVLAモデルはステージ幻覚に悩まされており、エージェントは粗い評価信号を利用してマルチステップタスクをショートカットし、実際に完了することなく高い進捗を報告している。
視覚的ショートカットを防ぐためにジェミニ生成したハードネガティブと三重項の対比学習を利用するSAR(Stage-Aligned Reward)、生の画素の代わりに相対的なオブジェクトグリッパーの好奇性を示すPose-Based Object Exploration(POE)、選択的文脈保持とゲート融合を利用したLong-Horizon Memory(Long-Horizon Memory)という3つの相補的コンポーネントを用いてこの問題に対処する自己教師付きVLAフレームワークを提案する。
3つのマルチステージタスクを備えた長時間水平操作ベンチマークであるDiscoverse-Lの大規模な評価は、EvoVLAが最強ベースライン(OpenVLA-OFT)で平均タスク成功率を10.2%改善し、69.2%に達したことを示している。
EvoVLAはサンプル効率を1/半改善し、ステージ幻覚を38.5%から14.8%に下げる。
物理ロボットへの実世界の展開は、4つの操作タスクで平均54.6%の成功率に達し、OpenVLA-OFTを11ポイント上回った。
コード:https://github.com/AIGeeksGroup/EvoVLA
ウェブサイト: https://aigeeksgroup.github.io/EvoVLA
関連論文リスト
- Self-Improving Vision-Language-Action Models with Data Generation via Residual RL [29.682761652941963]
Probe, Learn, Distill (PLD)は3段階のプラグイン・アンド・プレイフレームワークで、視覚言語アクションモデルを改善する。
PLDはLIBEROでほぼ飽和した99%のタスク成功、SimplerEnvで50%以上、実世界のFrankaとYAMのアーム操作タスクで100%成功している。
論文 参考訳(メタデータ) (2025-10-30T06:24:04Z) - Contrastive Representation Regularization for Vision-Language-Action Models [64.10170453130324]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルの表現正規化であるロボット状態認識コントラスト損失(RS-CL)を紹介する。
特に、RS-CLは、状態間の相対的な距離をソフト・インスペクションとして使用することにより、ロボットの受容状態とより密に表現する。
実験の結果,RS-CLは最先端VLAモデルの操作性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-10-02T06:41:22Z) - On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations [52.1029745126386]
視覚-言語-アクション(VLA)モデルでは、現実世界の摂動に対する堅牢性は、デプロイに不可欠である。
本稿では,VLA入力と出力の摂動に対するロバストVLAを提案する。
LIBEROの実験では、ロバストVLAは、pi0バックボーンで12.6%、OpenVLAバックボーンで10.4%のベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-26T14:42:23Z) - BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models [37.699828966838986]
BridgeVLAは、3D入力を複数の2D画像に投影し、VLMバックボーンとの入力アライメントを保証する新しい3D VLAモデルである。
アクション予測に2Dヒートマップを使用し、一貫した2次元画像空間内の入力空間と出力空間を統一する。
10以上のタスクで96.8%の成功率を達成することができ、1タスクにつき3つの軌道しか持たず、異常なサンプル効率を誇示している。
論文 参考訳(メタデータ) (2025-06-09T17:36:34Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。