論文の概要: SpaceMind: A Modular and Self-Evolving Embodied Vision-Language Agent Framework for Autonomous On-orbit Servicing
- arxiv url: http://arxiv.org/abs/2604.14399v1
- Date: Wed, 15 Apr 2026 20:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.599385
- Title: SpaceMind: A Modular and Self-Evolving Embodied Vision-Language Agent Framework for Autonomous On-orbit Servicing
- Title(参考訳): SpaceMind: 自律軌道上での作業のためのモジュール的で自己進化型視覚ランゲージエージェントフレームワーク
- Authors: Aodi Wu, Haodong Han, Xubo Luo, Ruisuo Wang, Shan He, Xue Wan,
- Abstract要約: SpaceMindは、知識、ツール、推論を3次元に分解する自己進化型視覚言語モデルである。
われわれはSpaceMindを、5つの衛星、3つのタスクタイプ、2つの環境にまたがる192のクローズドループで検証する。
自己進化研究は、エージェントが失敗したエピソードから6つのグループのうち4つの失敗から回復することを示している。
- 参考スコア(独自算出の注目度): 1.614712872796152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous on-orbit servicing demands embodied agents that perceive through visual sensors, reason about 3D spatial situations, and execute multi-phase tasks over extended horizons. We present SpaceMind, a modular and self-evolving vision-language model (VLM) agent framework that decomposes knowledge, tools, and reasoning into three independently extensible dimensions: skill modules with dynamic routing, Model Context Protocol (MCP) tools with configurable profiles, and injectable reasoning-mode skills. An MCP-Redis interface layer enables the same codebase to operate across simulation and physical hardware without modification, and a Skill Self-Evolution mechanism distills operational experience into persistent skill files without model fine-tuning. We validate SpaceMind through 192 closed-loop runs across five satellites, three task types, and two environments, a UE5 simulation and a physical laboratory, deliberately including degraded conditions to stress-test robustness. Under nominal conditions all modes achieve 90--100% navigation success; under degradation, the Prospective mode uniquely succeeds in search-and-approach tasks where other modes fail. A self-evolution study shows that the agent recovers from failure in four of six groups from a single failed episode, including complete failure to 100% success and inspection scores improving from 12 to 59 out of 100. Real-world validation confirms zero-code-modification transfer to a physical robot with 100% rendezvous success. Code: https://github.com/wuaodi/SpaceMind
- Abstract(参考訳): 自律的な軌道上のサーベイシングは、視覚センサーを通して知覚するエージェントを具体化し、3次元空間的状況を推論し、拡張された地平線上で多相タスクを実行することを要求する。
動的ルーティングを備えたスキルモジュール,構成可能なプロファイルを備えたモデルコンテキストプロトコル(MCP)ツール,インジェクタ可能な推論モードスキルの3つの独立した拡張可能な次元に,知識,ツール,推論を分解する,モジュール的で自己進化的な視覚言語モデル(VLM)エージェントフレームワークであるSpaceMindを紹介する。
MCP-Redisインターフェース層は、同じコードベースを変更せずにシミュレーションと物理ハードウェア間で動作させ、スキル自己進化機構は、操作経験をモデル微調整なしで永続的なスキルファイルに蒸留する。
5つの衛星、3つのタスクタイプ、2つの環境、UE5シミュレーションと物理的実験室を通してSpaceMindを検証する。
命名条件下では、全てのモードが90-100%のナビゲーション成功を達成し、劣化下では、プロスペクティブモードは、他のモードが失敗する検索および承認タスクで一意に成功する。
自己進化的な研究によると、エージェントは1つの失敗エピソードから6つのグループのうち4つの失敗から回復し、完全な失敗から100%の成功、検査スコアは100点中12点から59点に改善した。
実世界の検証では、ゼロコード修正が100%ランデブーに成功した物理ロボットに転送されることを確認した。
コード:https://github.com/wuaodi/SpaceMind
関連論文リスト
- AEROS: A Single-Agent Operating Architecture with Embodied Capability Modules [7.392721604463545]
ロボットは、インストール可能なパッケージによって拡張された単一の永続的な知的主題としてモデル化されるべきである、と我々は主張する。
我々はAEROS(Agent Execution Execution Execution Operating System)としてこの見解を定式化し、各ロボットが1つの永続エージェントに対応し、ECMを通して能力を提供する。
我々は,再計画,障害復旧,政策施行,ベースライン比較,クロスタスク一般性,ECMホットスワッピング,アブレーション,障害境界解析を含む8つの実験に対して,Franka Panda 7-DOFマニピュレータを用いたPyBulletシミュレーションの参照実装を評価した。
論文 参考訳(メタデータ) (2026-04-08T12:54:32Z) - AutoMOOSE: An Agentic AI for Autonomous Phase-Field Simulation [0.0]
AutoMOOSEは、ひとつの自然言語プロンプトから完全なシミュレーションライフサイクルを編成するエージェントフレームワークである。
MOOSEの入力ファイルは、人間の専門家参照と正確に一致する12のブロックのうち6つで、機能的に等価である。
インテント、有限要素実行、そして人間による検証のないアレニウス運動論にまたがる、エンドツーエンドの物理的整合性チェックを実行する。
論文 参考訳(メタデータ) (2026-03-22T00:11:19Z) - RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI [84.9072161615971]
我々は,物理AI用に設計された身体的負の視覚・言語・アクション・フレームワークであるDM0を提案する。
当社の方法論は,事前トレーニング,中級トレーニング,ポストトライニングという,包括的な3段階のパイプラインに従っています。
RoboChallengeベンチマークの実験では、DM0はスペシャリストとジェネリリストの両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-16T17:59:16Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - Precise Mobile Manipulation of Small Everyday Objects [11.45585588241935]
我々は,小型物体の操作を伴う精密な作業にモバイルマニピュレータが取り組むことができるクローズドループフレームワークであるServoing with Vision Models (SVM)を開発した。
SVMは最先端のビジョン基盤モデルを使用して、視覚サーボのための3Dターゲットを生成し、新しい環境で多様なタスクを可能にする。
72の異なるオブジェクトインスタンスを含む6つの建物にまたがる10の環境における大規模評価実験を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:17Z) - Toward a Plug-and-Play Vision-Based Grasping Module for Robotics [0.0]
本稿では,複数のマニピュレータ間で容易に移動可能な視覚ベースの把握フレームワークを提案する。
このフレームワークは、オープンループ把持軌跡の多様なレパートリーを生成し、把握の多様性を維持しつつ、適応性を向上させる。
論文 参考訳(メタデータ) (2023-10-06T16:16:00Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。