Fugu-MT 論文翻訳(概要): Mag-VLA: Vision-Language-Action Model for Bimanual Magnetically Actuated Microrobot Manipulation

論文の概要: Mag-VLA: Vision-Language-Action Model for Bimanual Magnetically Actuated Microrobot Manipulation

arxiv url: http://arxiv.org/abs/2605.28486v1
Date: Wed, 27 May 2026 13:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:56.085129
Title: Mag-VLA: Vision-Language-Action Model for Bimanual Magnetically Actuated Microrobot Manipulation
Title（参考訳）: Mag-VLA:バイマナル磁気駆動型マイクロロボットマニピュレーションのためのビジョンランゲージ・アクションモデル
Authors: Yongchen Wang, Kangyi Lu, Lan Wei, Dandan Zhang,
Abstract要約: 磁気マイクロロボット操作のための視覚言語アクション(VLA)モデルであるMag-VLAを提案する。我々のフレームワークは、ローランド適応(LoRA)を用いてQwen2.5-VL-7Bのバックボーンを適用し、行動予測のための視覚的観察と言語命令を処理する。実ロボット実験において、Mag-VLAは、タスクの難易度が増加するにつれて、全タスクで90%のアプローチ成功率、トランスポート成功率80%、70%、50%を達成する。
参考スコア（独自算出の注目度）: 6.712605140495474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Magnetically actuated microrobots have been used as wireless, non-contact manipulation tools at microscales, making them promising for minimally invasive applications. However, their control remains challenging due to indirect actuation, limited sensing, and nonlinear magnetic interactions. In this work, we propose Mag-VLA, a vision-language-action (VLA) model for dexterous magnetic microrobot manipulation using two robotic arms with mounted magnets for dynamic magnetic-field construction. Bimanual coordination enables capabilities such as microrobot reorientation that are difficult or infeasible with a single arm, but it also introduces coupled control challenges, as the policy must generate coordinated trajectories for both actuators within a shared workspace. Our framework adapts a Qwen2.5-VL-7B backbone using Low-Rank Adaptation (LoRA) to process visual observations and language instructions for action prediction. To capture task progression, we introduce a motion-aware phase classifier and a phase-conditioned Action Chunking Transformer (ACT) decoder for temporally coherent multi-step control. We further construct a teleoperated magnetic microrobot manipulation dataset covering three task configurations. Ablation studies show that the ACT-based decoder substantially outperforms alternative generative action heads. In real-robot experiments, Mag-VLA achieves a 90% approach success rate across all tasks and transport success rates of 80%, 70%, and 50% as task difficulty increases. These results demonstrate that hierarchical VLA modeling provides a promising framework for magnetic microrobot manipulation.
Abstract（参考訳）: 磁気駆動型マイクロロボットは、マイクロスケールでの無線非接触操作ツールとして使われており、最小限の侵襲的応用を約束している。しかし、間接的なアクチュエータ、限られたセンシング、非線形磁気相互作用による制御は依然として困難である。本研究では,2つのロボットアームを用いた動的磁場構築のための視覚言語アクション(VLA)モデルであるMag-VLAを提案する。双方向コーディネーションは、単一アームで難しい、あるいは不可能なマイクロロボットのリオリエンテーションのような機能を実現するが、ポリシーは、共有ワークスペース内の両方のアクチュエータの協調軌道を生成する必要があるため、複合的な制御課題も導入する。我々のフレームワークは、ローランド適応(LoRA)を用いてQwen2.5-VL-7Bのバックボーンを適用し、行動予測のための視覚的観察と言語命令を処理する。タスクの進行を捉えるために、時間的コヒーレントなマルチステップ制御のための動き認識位相分類器と位相条件のアクションチャンキング変換器(ACT)デコーダを導入する。さらに、3つのタスク構成をカバーする遠隔操作型磁気マイクロロボット操作データセットを構築した。アブレーション研究により、ACTベースのデコーダは代替のジェネレーション・アクション・ヘッドを大幅に上回っていることが示されている。実ロボット実験において、Mag-VLAは、タスクの難易度が増加するにつれて、全タスクで90%のアプローチ成功率、トランスポート成功率80%、70%、50%を達成する。これらの結果は、階層型VLAモデリングが磁気マイクロロボットの操作に有望なフレームワークを提供することを示している。

関連論文リスト

TMR-VLA:Vision-Language-Action Model for Magnetic Motion Control of Tri-leg Silicone-based Soft Robot [16.083189520931363]
我々は、より柔軟な歩行と多様な動きパターンを実現するために、多脚設計が可能な三脚磁気駆動型ソフトロボット(TMR)を開発した。再構成可能なソフトロボットで作られたシリコンでは、ナビゲーション能力はシーケンシャルな動作に分けることができる。 TMR-VLAは,ハイブリッドモーションタイプを動作可能なトリグレッグ型磁気ソフトロボットのエンドツーエンドマルチモーダルシステムである。
論文参考訳（メタデータ） (2026-02-28T02:39:41Z)
MicroPush: A Simulator and Benchmark for Contact-Rich Cell Pushing and Assembly with a Magnetic Rolling Microrobot [0.6053202932413693]
乱雑な2Dシーンにおける磁気圧延マイクロロボットのための,オープンソースのシミュレータおよびベンチマークスイートであるMicroPushについて紹介する。 MicroPushは、過大な相互作用モデルとコンタクト対応スティックスリップ効果、軽量な近接場減衰、オプションのPoiseuilleバックグラウンドフロー、アクティベーション周波数から自由空間圧延速度へのキャリブレーションマッピングを組み合わせたものだ。
論文参考訳（メタデータ） (2026-02-27T02:16:26Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
RobotDiffuse: Motion Planning for Redundant Manipulator based on Diffusion Model [13.110235244912474]
冗長マニピュレータは、キネマティック性能と汎用性の向上を提供する。これらのマニピュレータの動作計画は、DOFの増加と複雑な動的環境のために困難である。本稿では,冗長マニピュレータにおける運動計画のための拡散モデルに基づくロボットディフューズを提案する。
論文参考訳（メタデータ） (2024-12-27T07:34:54Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Smart Magnetic Microrobots Learn to Swim with Deep Reinforcement Learning [0.0]
深層強化学習は、スマートなマイクロロボットを作るための堅牢なコントローラを自律的に開発するための有望な方法である。本稿では,ソフトアクター評論家強化学習アルゴリズムを用いて制御ポリシを自律的に導出するスマートヘリカル磁性ハイドロゲルマイクロロボットの開発について報告する。強化学習エージェントは10万歩未満のトレーニングステップで制御ポリシを成功させ、高速学習のためのサンプル効率を実証した。
論文参考訳（メタデータ） (2022-01-14T18:42:18Z)
Towards Safe Control of Continuum Manipulator Using Shielded Multiagent Reinforcement Learning [1.2647816797166165]
ロボットの制御は、MADQNフレームワークにおける1つのエージェント問題である1-DoFとして定式化され、学習効率が向上する。シールドされたMADQNにより、ロボットは外部負荷下で、サブミリ単位のルート平均二乗誤差で点と軌道追跡を行うことができた。
論文参考訳（メタデータ） (2021-06-15T05:55:05Z)
ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。 ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文参考訳（メタデータ） (2020-08-18T08:05:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。