論文の概要: BioProVLA-Agent: An Affordable, Protocol-Driven, Vision-Enhanced VLA-Enabled Embodied Multi-Agent System with Closed-Loop-Capable Reasoning for Biological Laboratory Manipulation
- arxiv url: http://arxiv.org/abs/2605.07306v1
- Date: Fri, 08 May 2026 06:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.849263
- Title: BioProVLA-Agent: An Affordable, Protocol-Driven, Vision-Enhanced VLA-Enabled Embodied Multi-Agent System with Closed-Loop-Capable Reasoning for Biological Laboratory Manipulation
- Title(参考訳): BioProVLA-Agent:生物実験室マニピュレーションのためのクローズドループキャパブル推論を用いた拡張型VLA-Enmbodied Multi-Agentシステム
- Authors: Zhaohui Du, Zhe Wang, Hongmei Fei, Xiwen Cao, Ting Xiao, Qi Wang, Huanbo Jin, Jiaming Gu, Quan Lu, Zhe Liu,
- Abstract要約: BioProVLA-Agent(バイオプロVLA-Agent)は、生物学的操作のためのプロトコル駆動型、ビジョン駆動型多エージェントシステムである。
クローズドループワークフローでは、プロトコル解析、視覚的状態検証、具体的実行を統合している。
本研究では,15の原子タスク,6つの複合タスク,3つのバイマニュアルタスクを網羅した階層的ベンチマークによるシステム評価を行った。
- 参考スコア(独自算出の注目度): 15.461936066333633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biological laboratory automation can reduce repetitive manual work and improve reproducibility, but reliable embodied execution in wet-lab environments remains challenging. Protocols are often unstructured, labware is frequently transparent or reflective, and multi-step procedures require state-aware execution beyond one-shot instruction following. Existing robotic systems often rely on costly hardware, fixed workflows, dedicated instruments, or robotics-oriented interfaces. Here, we introduce BioProVLA-Agent, an affordable, protocol-driven, vision-enhanced embodied multi-agent system enabled by Vision-Language-Action (VLA) models for biological manipulation. The system uses protocols as the task interface and integrates protocol parsing, visual state verification, and embodied execution in a closed-loop workflow. A Tailored LLM Protocol Agent converts protocols into verifiable subtasks; a VLM-RAG Verification Agent assesses readiness and completion using observations, robot states, retrieved knowledge, and success/failure examples; and a VLA Embodied Agent executes verified subtasks through a lightweight policy. To improve robustness under wet-lab visual perturbations, we develop AugSmolVLA, an online augmentation strategy targeting transparent labware, reflections, illumination shifts, and overexposure. We evaluate the system on a hierarchical benchmark covering 15 atomic tasks, 6 composite workflows, and 3 bimanual tasks, including tube loading, sorting, waste disposal, cap twisting, and liquid pouring. Across normal and high-exposure settings, AugSmolVLA improves execution stability over ACT, X-VLA, and the original SmolVLA, especially for precise placement, transparent-object manipulation, composite workflows, and visually degraded scenes. These results suggest a practical route toward accessible, protocol-centered, and verification-capable embodied AI for biological manipulation.
- Abstract(参考訳): 生物実験室の自動化は反復的な手作業の削減と再現性の向上に寄与するが、湿原環境における信頼性の高い実施は依然として困難である。
プロトコルは、しばしば非構造化され、ラボウェアは、しばしば透過的または反射的であり、マルチステッププロシージャは、一発の命令以上の状態認識実行を必要とする。
既存のロボットシステムは、高価なハードウェア、固定されたワークフロー、専用の機器、あるいはロボット指向のインターフェースに依存していることが多い。
本稿では、バイオプロVLA-Agentについて紹介する。ビジュアル・ランゲージ・アクション(VLA)モデルで生物学的操作を可能にする、安価な、プロトコル駆動型、視覚強調型マルチエージェントシステムである。
このシステムは、プロトコルをタスクインターフェースとして使用し、クローズドループワークフローにおけるプロトコル解析、視覚的状態検証、具体化実行を統合する。
テイラードLLMプロトコルエージェントは、プロトコルを検証可能なサブタスクに変換し、VLM-RAG検証エージェントは、観察、ロボット状態、検索された知識、成功/失敗例を用いて、準備と完了を評価する。
AugSmolVLAは、透明なラボウェア、リフレクション、照明シフト、過剰露光をターゲットとしたオンライン強化戦略である。
本研究では,15の原子タスク,6つの複合ワークフロー,およびチューブローディング,ソート,廃棄物処理,キャップねじれ,液注を含む3つのバイマニュアルタスクを網羅した階層的評価を行った。
AugSmolVLAは、通常および高露光設定全体にわたって、ACT、X-VLA、および元のSmolVLAに対する実行安定性を改善し、特に正確な配置、透明オブジェクト操作、複合ワークフロー、視覚的に劣化したシーンに対して有効である。
これらの結果は、生物学的操作のための、アクセス可能で、プロトコル中心で、検証可能な実施可能なAIへの実践的な道のりを示唆している。
関連論文リスト
- Long-Term Memory for VLA-based Agents in Open-World Task Execution [12.869726287795693]
VLA(Vision-Language-Action)モデルは、具体的意思決定に重要な可能性を示している。
既存のフレームワークは、計画と実行を分離されたプロセスとして扱う。
ChemBotは、自律的なAIエージェントと、階層的なタスクの分解と実行のための進捗対応VLAモデルを統合する。
論文 参考訳(メタデータ) (2026-04-17T03:49:41Z) - Autogenesis: A Self-Evolving Agent Protocol [60.15939127351914]
本稿では,自己進化プロトコルであるAutogenesis Protocol(AGP)を紹介する。
本稿では,実行中のプロトコル登録リソースを動的にインスタンス化し,検索し,精錬する自己進化型マルチエージェントシステムAGSを提案する。
論文 参考訳(メタデータ) (2026-04-16T14:04:06Z) - AgentChemist: A Multi-Agent Experimental Robotic Platform Integrating Chemical Perception and Precise Control [27.513130381967937]
化学実験室の自動化は、長い間、厳密な一般化と実験タスクの長期分布への適応性に制約されてきた。
本稿では,協調作業の分解,動的スケジューリング,適応制御を通じて,この長期的課題に対処するために設計されたマルチエージェントロボットプラットフォームを提案する。
論文 参考訳(メタデータ) (2026-03-25T03:19:34Z) - RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation [68.7948300643741]
ロボットの異常検出と介入をリアルタイムに監視するロボット・コンディションド・ノーマライゼーション・フロー(RC-NF)を提案する。
RC-NFは、正規化フロー内のタスク認識ロボットとオブジェクト状態の処理を分離する。
従来のロボットタスクの監視方法と比較して、あらゆる異常なタイプで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-11T10:14:37Z) - Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments [49.02509634515056]
最近のビジョン言語アクションモデルは、ロボット研究所にとって有望な基盤を提供する。
実験は通常、複数の原子タスクからなる長い水平タスクを含む。
科学的なタスクのために微調整されたVLAモデルは、原子実験的なアクションを確実に実行することができるが、これらの既知の原子のアクションを再順序付けして構成することによって形成される複合的なタスクの実行に失敗することが多い。
論文 参考訳(メタデータ) (2026-02-10T05:50:19Z) - AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act [27.922630781100864]
本稿では,モデルに依存しないロボットエージェントプラットフォームであるAgenticLabと,オープンワールド操作のためのベンチマークについて紹介する。
我々は、非構造環境における実ロボットタスクに最先端のVLMベースのエージェントをベンチマークする。
私たちのベンチマークでは、オフラインの視覚言語テストがキャプチャーに失敗するいくつかの障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-02-02T05:30:14Z) - PRISM: Protocol Refinement through Intelligent Simulation Modeling [4.839327116611717]
本稿では,実験プロトコルの設計,検証,実行を自動化するフレームワークであるPRISMを紹介する。
PRISMは言語モデルに基づくエージェントのセットを使用し、共同で実験的なステップを生成し、洗練する。
我々は、PRISMを言語ベースのプロトコル生成、シミュレーションベースの検証、自動ロボット実行をブリッジする実用的なエンドツーエンドワークフローとして実証する。
論文 参考訳(メタデータ) (2026-01-08T20:15:28Z) - BioMARS: A Multi-Agent Robotic System for Autonomous Biological Experiments [8.317138109309967]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、自律的な実験を可能にすることによって生物学的研究を変革する可能性がある。
ここでは、LLM、VLM、モジュールロボットを統合し、自律的に設計、計画、実行を行うインテリジェントプラットフォームであるBioMARSを紹介する。
Webインターフェースはリアルタイムの人間とAIのコラボレーションを可能にし、モジュール化されたバックエンドは実験室のハードウェアとのスケーラブルな統合を可能にする。
論文 参考訳(メタデータ) (2025-07-02T08:47:02Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。