論文の概要: Wall-OSS-0.5 Technical Report
- arxiv url: http://arxiv.org/abs/2605.30877v2
- Date: Mon, 01 Jun 2026 02:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 14:56:41.447865
- Title: Wall-OSS-0.5 Technical Report
- Title(参考訳): Wall-OSS-0.5テクニカルレポート
- Authors: Ryan Yu, Pushi Zhang, Starrick Liu, Brae Liu, Miracle Kang, Shalfun Li, Lights Shi, Ellie Ma, Ping Yang, Chris Pan, Jerry Chen, Dongxiu Liu, Rain Sun, Miles Guo, Byron Zhang, Hugo Zhou, Zach Xu, Vincent Chen, Harrison Huang, James Wang, Dance Kuzi, Andy Zhai, Hang Su, Roy Gan, Lucy Liang, Hao Wang, Qian Wang,
- Abstract要約: 本稿では,アクションジェネレーションコンポーネントを付加した3B VLMバックボーン上に構築した,オープンソースの4B VLAであるWall-OSS-0.5を紹介する。
このモデルは20以上のエボディメントで事前訓練され、1エポックあたり100万以上のロボット軌道を処理する。
非自明なゼロショットのリアルタイムロボット動作を実現し、17タスクスイート上の高いタスク進捗において、ホールドアウトの変形可能な操作タスクを含むいくつかのタスクを完了させる。
- 参考スコア(独自算出の注目度): 13.983843529533113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Vision-Language-Action (VLA) pretraining is increasingly adopted as the foundation for robot policies, yet the evidence for pretrained VLAs is almost invariably reported after task-specific fine-tuning. This leaves a foundational question unanswered: does VLA pretraining itself yield executable robot behavior, or does it merely furnish a better initialization for downstream policy learning? We present Wall-OSS-0.5, an open-source 4B VLA built upon a 3B VLM backbone augmented with action-generation components, designed so that pretrained robotic capability is directly measurable on physical hardware. The model is pretrained across more than 20 embodiments, processing over one million robot trajectories per epoch alongside a grounded multimodal corpus. We adopt a gradient-bridged co-training recipe in which three objectives play distinct and complementary roles: discrete action prediction routes strong VLM-native gradients into the backbone, multimodal prediction preserves grounded vision-language understanding, and continuous flow matching serves as the deployment-time action interface. Before task-specific fine-tuning, the pretrained checkpoint achieves non-trivial zero-shot real-robot behavior, completing several tasks, including a held-out deformable manipulation task, at high task progress on a 17-task suite. After fine-tuning, the same checkpoint serves as a stronger adaptation prior, reaching 60.5% average task progress on 15 real-robot tasks and outperforming π_0.5 by 17.5%. Multimodal evaluations further confirm that action training does not erode grounded vision-language competence: the model preserves broad vision-language ability while strengthening embodied grounding. Together, these results reposition VLA pretraining from an initialization strategy to a directly testable, already useful source of robot capability.
- Abstract(参考訳): ロボット政策の基盤として,大規模ビジョン・ランゲージ・アクション(VLA)の事前訓練がますます採用されているが,事前訓練されたVLAの証拠はタスク固有の微調整後に必ず報告される。
VLAの事前訓練は、実行可能なロボットの動作をもたらすのか、それとも単に下流のポリシー学習により良い初期化を与えるだけなのか?
本稿では,アクション生成コンポーネントを付加した3B VLMバックボーン上に構築された,オープンソースの4B VLAであるWall-OSS-0.5について述べる。
このモデルは20以上の実施形態で事前訓練され、1エポックあたり100万以上のロボット軌道を、接地されたマルチモーダルコーパスと共に処理する。
離散的な動作予測は、強力なVLMネイティブ勾配をバックボーンにルートし、マルチモーダル予測は、基底となる視覚言語理解を保ち、連続フローマッチングは、デプロイメント時アクションインターフェースとして機能する。
タスク固有の微調整の前に、事前訓練されたチェックポイントは、非自明なゼロショットのリアルタイムロボット動作を達成し、17タスクスイートで高いタスク進行時に、保持可能な変形可能な操作タスクを含むいくつかのタスクを完了させる。
微調整の後、同じチェックポイントはより強力な適応として機能し、15個の実ロボットタスクで平均60.5%のタスク進歩を達成し、π_0.5よりも17.5%向上した。
マルチモーダル評価では、動作訓練が視覚言語能力を損なうことはないことが確認されている。
これらの結果と合わせて,初期化戦略からロボット能力の直接テスト可能な,すでに有用な源へと,VLAを事前訓練した。
関連論文リスト
- ProgVLA: Progress-Aware Robot Manipulation Skill Learning [13.001629637153583]
本稿では,厳密な計算およびメモリ予算下でのロボット操作のための,コンパクトな視覚言語アクション(VLA)モデルであるProgVLAを提案する。
2段階のPerceiver再サンプリングスキームを持つマルチモーダルエンコーダは、可変長の視覚、言語、固有受容ストリームを、制御可能なコンテキストトークンの固定セットに圧縮する。
前進ヘッドの補助セットは、オフラインの強化学習目標を用いて訓練され、正規化された残地目標に対する批判を共同で学習する。
論文 参考訳(メタデータ) (2026-05-27T09:44:46Z) - EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models [84.73890225707264]
提案するEXPO-FTは,事前学習したVLAポリシーの安定かつサンプル効率の良いRL微調整システムである。
本システムは,オンラインロボットデータの平均19.1分以内の全ての評価課題に対して,完全なタスク性能(30/30の成功)を実現する。
我々は、ロボット工学におけるVLAモデルのより広範なRLファインタニング導入を促進することを目的とした、オープンソースのロバスト性をリリースする。
論文 参考訳(メタデータ) (2026-05-25T06:31:03Z) - Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies [23.266003019334438]
汎用的なロボットポリシーは、大規模な事前トレーニングの恩恵を受ける傾向にあるが、オフラインデータだけでは、堅牢な現実世界のデプロイメントには不十分である。
本稿では,VLA(Vision-Language-Action)ポリシーの継続学習のための,艦隊規模のオフライン-オンライン強化学習フレームワークであるLWDを紹介する。
論文 参考訳(メタデータ) (2026-05-01T05:20:26Z) - PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文 参考訳(メタデータ) (2026-04-30T06:14:02Z) - Green-VLA: Staged Vision-Language-Action Model for Generalist Robots [0.0]
我々は,グリーンヒューマノイドロボット上での現実的な展開を実現するための,段階的ビジョン・ランゲージ・アクション・フレームワークであるGreen-VLAを紹介した。
我々は、時間的アライメントと品質フィルタリングを備えたスケーラブルなデータ処理パイプラインを結合し、統一されたエンボディメント対応アクションインターフェースを使用する。
Simpler BRIDGE WidowXとCALVIN ABC-Dの実験は、実ロボットの評価と同様に、RLアライメントによる強力な一般化と性能向上を示す。
論文 参考訳(メタデータ) (2026-01-31T22:13:23Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。