論文の概要: SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation
- arxiv url: http://arxiv.org/abs/2603.24060v1
- Date: Wed, 25 Mar 2026 08:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.204525
- Title: SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation
- Title(参考訳): SOMA:In-Context Adaptationによる視覚・言語・アクションモデルロバストネスのための戦略的オーケストレーションとメモリ拡張システム
- Authors: Zhuoran Li, Zhiyang Li, Kaijun Zhou, Jinyu Gu,
- Abstract要約: SOMAはStrategic Orchestration and Memory-Augmented Systemである。
パラメータの微調整なしに、フリーズされたVLAポリシーをアップグレードし、堅牢なコンテキスト内適応を実現する。
絶対成功率は56.6%に達する。
- 参考スコア(独自算出の注目度): 8.984333960463795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the promise of Vision-Language-Action (VLA) models as generalist robotic controllers, their robustness against perceptual noise and environmental variations in out-of-distribution (OOD) tasks remains fundamentally limited by the absence of long-term memory, causal failure attribution, and dynamic intervention capability. To address this, we propose SOMA, a Strategic Orchestration and Memory-Augmented System that upgrades frozen VLA policies for robust in-context adaptation without parameter fine-tuning. Specifically, SOMA operates through an online pipeline of contrastive Dual-Memory Retrieval-Augmented Generation (RAG), an Attribution-Driven Large-Language-Model (LLM) Orchestrator, and extensible Model Context Protocol (MCP) interventions, while an offline Memory Consolidation module continuously distills the execution traces into reliable priors. Experimental evaluations across three backbone models (pi0, pi0.5, and SmolVLA) on LIBERO-PRO and our proposed LIBERO-SOMA benchmarks demonstrate that SOMA achieves an average absolute success rate gain of 56.6%. This includes a significant absolute improvement of 89.1% in long-horizon task chaining. Project page and source code are available at: https://github.com/LZY-1021/SOMA.
- Abstract(参考訳): 汎用型ロボットコントローラとしてのビジョン・ランゲージ・アクション(VLA)モデルが約束されているにもかかわらず、その知覚ノイズに対する頑健さとアウト・オブ・ディストリビューション(OOD)タスクの環境変動は、長期記憶の欠如、因果的障害の帰属、動的介入能力によって根本的に制限されている。
そこで本研究では,パラメータの微調整を伴わずに,凍結したVLAポリシーを改良し,ロバストなインコンテキスト適応を実現するための戦略オーケストレーションとメモリ拡張システムであるSOMAを提案する。
具体的には、Dual-Memory Retrieval-Augmented Generation (RAG)、Attribution-Driven Large-Language-Model (LLM)Orchestrator、Extensible Model Context Protocol (MCP)の介入によるオンラインパイプラインを運用し、オフラインメモリ統合モジュールは、実行トレースを信頼性の高い事前に継続的に蒸留する。
LIBERO-PROにおける3つのバックボーンモデル(pi0, pi0.5, SmolVLA)と, 提案したLIBERO-SOMAベンチマークによる実験結果から, SOMAの平均絶対成功率は56.6%であることがわかった。
これには、長期タスクチェーンにおける89.1%の大幅な絶対的な改善が含まれている。
プロジェクトページとソースコードは、https://github.com/LZY-1021/SOMA.comで公開されている。
関連論文リスト
- Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks [96.60530830276281]
RuleSafeは、スケーラブルなLLM支援シミュレーションフレームワーク上に構築された、新しいオペレーティングベンチマークである。
VQ-Memoryはベクトル量子化変分オートエンコーダを用いたコンパクトで構造化された時間表現である。
論文 参考訳(メタデータ) (2026-03-10T11:13:54Z) - AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models [9.608633915316252]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
現在のパラダイムは、教師付き微調整中の粗大でハイレベルなタスク命令に依存している。
スケーラブルなオフライン後トレーニングパイプラインと統合された,最初のサブタスク対応VLAフレームワークである方法を提案する。
論文 参考訳(メタデータ) (2026-03-09T15:52:48Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Compute-in-Memory Implementation of State Space Models for Event Sequence Processing [10.673140569452274]
状態空間モデル(SSM)は、長いシーケンス処理のための強力なフレームワークとして登場した。
本稿では,リアルタイムなイベント駆動処理を実現するために,エネルギー効率の高い計算インメモリハードウェアにSSMを実装する手法を提案する。
論文 参考訳(メタデータ) (2025-11-17T21:06:52Z) - MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation [22.063033063941788]
MAP-VLA(Memory-Augmented Prompting for Vision-Language-Action Model)は、実証型メモリプロンプトによって訓練済みのVLAモデルを強化し、長距離ロボット操作タスクのためのアクション生成を可能にする新しいフレームワークである。
その結果、MAP-VLAは、シミュレーションベンチマークで7.0%の絶対的なパフォーマンス向上を達成でき、また、現在の最先端手法を超越した、長距離タスクにおける実際のロボット評価の25.0%を達成できることがわかった。
論文 参考訳(メタデータ) (2025-11-12T17:56:13Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。