論文の概要: SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
- arxiv url: http://arxiv.org/abs/2603.08124v1
- Date: Mon, 09 Mar 2026 09:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.718937
- Title: SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
- Title(参考訳): SaiVLA-0: Cerebrum-Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
- Authors: Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun,
- Abstract要約: 我々は神経科学にインスパイアされた三者を通してビジョン・ランゲージ・アクションを再考する。
セレブラムは安定な高レベルマルチモーダル前駆体を提供し、凍結している。
Pons Adapterは、これらの皮質の特徴をリアルタイムな固有受容入力と統合する。
Cerebellum (ParaCAT)は、オンライン制御のための高速で並列な分類的デコードを実行し、安定性のために/EMA/温度/エントロピーを使用する。
- 参考スコア(独自算出の注目度): 5.767510583332972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit Vision-Language-Action through a neuroscience-inspired triad. Biologically, the Cerebrum provides stable high-level multimodal priors and remains frozen; the Pons Adapter integrates these cortical features with real-time proprioceptive inputs and compiles intent into execution-ready tokens; and the Cerebellum (ParaCAT) performs fast, parallel categorical decoding for online control, with hysteresis/EMA/temperature/entropy for stability. A fixed-ratio schedule and two-stage feature caching make the system compute-aware and reproducible. Inspired by active, foveated vision, our wrist ROIs are geometrically tied to the end-effector via calibrated projection, providing a movement-stabilized, high-resolution view that is sensitive to fine-grained pose changes and complements the global context of the main view. The design is modular: upgrading the Cerebrum only retrains the Pons; changing robots only trains the Cerebellum; cerebellum-only RL can further refine control without touching high-level semantics. As a concept-and-protocol paper with preliminary evidence, we outline a timing protocol under matched conditions (GPU, resolution, batch) to verify anticipated efficiency gains. We also report preliminary LIBERO evidence showing that split feature caching reduces training time (7.5h to 4.5h) and improves average success (86.5% to 92.5%) under official N1.5 head-only training, and that SaiVLA0 reaches 99.0% mean success.
- Abstract(参考訳): 我々は神経科学にインスパイアされた三者を通してビジョン・ランゲージ・アクションを再考する。
Pons Adapterは、これらの皮質の特徴をリアルタイムの固有入力と統合し、インテントを実行可能なトークンにコンパイルし、Cerrebellum (ParaCAT)は、安定性のためのヒステリシス/EMA/温度/エントロピーを用いて、オンライン制御のための高速で並列な分類的デコードを実行する。
固定比率のスケジュールと2段階の機能キャッシングにより、システムは計算可能で再現可能である。
我々の手首のROIは、アクティブで望ましくない視覚にインスパイアされ、キャリブレーションプロジェクションによって幾何学的にエンドエフェクターに結びついており、微粒なポーズの変化に敏感な動き安定化された高解像度のビューを提供し、メインビューのグローバルなコンテキストを補完する。
設計はモジュラーで、セレブラムのアップグレードはポンズのみを訓練し、ロボットの変更はセレベラムのみを訓練し、小脳のみのRLは高レベルの意味論に触れることなく制御をさらに洗練することができる。
予備的証拠を付したコンセプト・アンド・プロトコール論文として、予測効率向上の検証のために、一致した条件(GPU、解像度、バッチ)下でのタイミングプロトコルを概説する。
また、LIBEROの予備的証拠として、スプリット機能キャッシングはトレーニング時間(7.5hから4.5h)を短縮し、N1.5オフィシャルヘッドオンリートレーニングにおける平均成功率(86.5%から92.5%)を向上し、SaiVLA0の平均成功率99.0%に達することを示す。
関連論文リスト
- When to restart? Exploring escalating restarts on convergence [0.06524460254566904]
我々はDescent with Escalating Restarts (SGD-ER) と呼ばれるシンプルだが効果的な戦略を提案する。
本手法は,学習の進行状況をモニタし,停止検出時に再起動をトリガし,学習速度を線形にエスカレートし,急激な局所最小値から逃れる。
標準的なスケジューラと比較して、SGD-ERはテスト精度を0.5-4.5%改善し、コンバージェンス対応のエスカレート再起動の利点を局所最適化のために示している。
論文 参考訳(メタデータ) (2026-03-04T14:35:27Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - A Stable Whitening Optimizer for Efficient Neural Network Training [99.7641280234926]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Efficient Attention via Pre-Scoring: Prioritizing Informative Keys in Transformers [3.5541790116337117]
本稿では,HyperAttentionを適用する前に重要なキーを優先するプリスコリング機構を提案する。
ChatGLM2(131kトークンコンテキスト)の実験では、コンプレックスが12から8.3に減少し、標準のHyperAttentionを上回っている。
論文 参考訳(メタデータ) (2025-05-16T09:35:11Z) - MoSFormer: Augmenting Temporal Context with Memory of Surgery for Surgical Phase Recognition [6.913838841605972]
メモリ・オブ・サーチ (Memory of Surgery, MOS) は、意味論的解釈可能な長期手術の歴史と短期的印象の両方を取り入れることで、時間的モデリングを強化する枠組みである。
MoSFormerは、複数のベンチマークで最先端のパフォーマンスをデモする。
論文 参考訳(メタデータ) (2025-03-02T02:26:21Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。
本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。
人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文 参考訳(メタデータ) (2024-04-21T15:16:05Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。