論文の概要: Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots
- arxiv url: http://arxiv.org/abs/2510.17369v1
- Date: Mon, 20 Oct 2025 10:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.395139
- Title: Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots
- Title(参考訳): ブリッジング・エボディメント・ギャップ:ソフトロボットにビジョン・ランゲージ・アクション・モデルを展開する
- Authors: Haochen Su, Cristian Meo, Francesco Stella, Andrea Peirone, Kai Junge, Josie Hughes,
- Abstract要約: VLA(Vision-Language-Action)モデルは、実際のロボットのための言語ガイド付き汎用制御フレームワークとして提案されている。
本稿では,VLAモデルのソフト連続マニピュレータへの展開について述べる。
- 参考スコア(独自算出の注目度): 5.993870098970107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic systems are increasingly expected to operate in human-centered, unstructured environments where safety, adaptability, and generalization are essential. Vision-Language-Action (VLA) models have been proposed as a language guided generalized control framework for real robots. However, their deployment has been limited to conventional serial link manipulators. Coupled by their rigidity and unpredictability of learning based control, the ability to safely interact with the environment is missing yet critical. In this work, we present the deployment of a VLA model on a soft continuum manipulator to demonstrate autonomous safe human-robot interaction. We present a structured finetuning and deployment pipeline evaluating two state-of-the-art VLA models (OpenVLA-OFT and $\pi_0$) across representative manipulation tasks, and show while out-of-the-box policies fail due to embodiment mismatch, through targeted finetuning the soft robot performs equally to the rigid counterpart. Our findings highlight the necessity of finetuning for bridging embodiment gaps, and demonstrate that coupling VLA models with soft robots enables safe and flexible embodied AI in human-shared environments.
- Abstract(参考訳): ロボットシステムは、安全性、適応性、一般化が不可欠である人中心の非構造環境での運用がますます期待されている。
VLA(Vision-Language-Action)モデルは、実際のロボットのための言語ガイド付き汎用制御フレームワークとして提案されている。
しかし、それらの展開は従来のシリアルリンクマニピュレータに限られている。
学習に基づく制御の厳密さと予測不可能さによって、安全に環境と対話する能力が欠如している。
本研究では,VLAモデルのソフト連続体マニピュレータへの展開について述べる。
本稿では,2種類の最先端VLAモデル(OpenVLA-OFTと$\pi_0$)を代表的操作タスクで評価し,組込みミスマッチによるアウト・オブ・ボックスポリシの失敗を示す。
本研究は,VLAモデルとソフトロボットとの結合により,人間の共有環境下での安全で柔軟なAIの実現が期待できることを示すものである。
関連論文リスト
- Mechanistic interpretability for steering vision-language-action models [0.23371356738437823]
VLA(Vision-Language-Action)モデルは、一般のエンボディエージェントを実現するための有望な道である。
本稿では,VLAを内部表現で解釈し,操作するための最初のフレームワークを紹介する。
我々は、微調整、報酬信号、環境相互作用を伴わずに、リアルタイムに行動を調整する汎用的なアクティベーションステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-30T03:01:57Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。