論文の概要: Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments
- arxiv url: http://arxiv.org/abs/2602.09430v1
- Date: Tue, 10 Feb 2026 05:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.390291
- Title: Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments
- Title(参考訳): Sci-VLA:長期作業のためのエージェントVLA推論プラグイン
- Authors: Yiwen Pang, Bo Zhou, Changjin Li, Xuanhao Wang, Shengxiang Xu, Deng-Bao Wang, Min-Ling Zhang, Shimin Di,
- Abstract要約: 最近のビジョン言語アクションモデルは、ロボット研究所にとって有望な基盤を提供する。
実験は通常、複数の原子タスクからなる長い水平タスクを含む。
科学的なタスクのために微調整されたVLAモデルは、原子実験的なアクションを確実に実行することができるが、これらの既知の原子のアクションを再順序付けして構成することによって形成される複合的なタスクの実行に失敗することが多い。
- 参考スコア(独自算出の注目度): 49.02509634515056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic laboratories play a critical role in autonomous scientific discovery by enabling scalable, continuous experimental execution. Recent vision-language-action (VLA) models offer a promising foundation for robotic laboratories. However, scientific experiments typically involve long-horizon tasks composed of multiple atomic tasks, posing a fundamental challenge to existing VLA models. While VLA models fine-tuned for scientific tasks can reliably execute atomic experimental actions seen during training, they often fail to perform composite tasks formed by reordering and composing these known atomic actions. This limitation arises from a distributional mismatch between training-time atomic tasks and inference-time composite tasks, which prevents VLA models from executing necessary transitional operations between atomic tasks. To address this challenge, we propose an Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments. It introduces an LLM-based agentic inference mechanism that intervenes when executing sequential manipulation tasks. By performing explicit transition inference and generating transitional robotic action code, the proposed plugin guides VLA models through missing transitional steps, enabling reliable execution of composite scientific workflows without any additional training. This inference-only intervention makes our method computationally efficient, data-efficient, and well-suited for open-ended and long-horizon robotic laboratory tasks. We build 3D assets of scientific instruments and common scientific operating scenes within an existing simulation environment. In these scenes, we have verified that our method increases the average success rate per atomic task by 42\% during inference. Furthermore, we show that our method can be easily transferred from the simulation to real scientific laboratories.
- Abstract(参考訳): ロボット研究所は、スケーラブルで継続的な実験実行を可能にすることで、自律的な科学的発見において重要な役割を担っている。
最近のビジョン言語アクション(VLA)モデルは、ロボット研究所に有望な基盤を提供する。
しかしながら、科学実験は通常、複数の原子タスクからなる長い水平タスクを伴い、既存のVLAモデルに根本的な課題を生じさせる。
科学的なタスクのために微調整されたVLAモデルは、訓練中に見られる原子実験の動作を確実に実行することができるが、これらの既知の原子行動を再順序付けして構成することによって形成される複合的なタスクの実行に失敗することが多い。
この制限は、トレーニング時原子タスクと推論時複合タスクの分散ミスマッチから生じ、VLAモデルが原子タスク間の遷移操作を実行するのを防ぐ。
この課題に対処するために,学術実験における長期タスクのためのエージェントVLA推論プラグインを提案する。
LLMベースのエージェント推論機構を導入し、シーケンシャルな操作タスクの実行に介入する。
明示的なトランジション推論を実行し、トランジショナルなロボットアクションコードを生成することで、プラグインはVLAモデルを過不足なトランジショナルステップを通じてガイドし、追加のトレーニングを必要とせずに複合的な科学ワークフローの信頼性の高い実行を可能にする。
この推論のみの介入により、我々の手法は計算効率が良く、データ効率が良く、オープン・エンド・ロング・ホライゾン・ロボティクスの作業に適している。
我々は,既存のシミュレーション環境内に,科学機器と一般的な科学操作シーンの3Dアセットを構築した。
そこで本研究では,提案手法が推算中の原子数当たりの平均成功率を42.5%向上することを確認した。
さらに,本手法はシミュレーションから実科学実験室へ容易に移行可能であることを示す。
関連論文リスト
- Bohrium + SciMaster: Building the Infrastructure and Ecosystem for Agentic Science at Scale [82.20980951765891]
エージェントサイエンスのスケーリングにはインフラストラクチャ・アンド・エコシステムアプローチが必要である,と我々は主張する。
BohriumはAI4S資産のマネージドでトレース可能なハブとして機能し、多様な科学データ、ソフトウェア、計算、実験室のシステムをエージェント対応の能力に変換する。
SciMasterはこれらの機能を長い水平科学に編成し、科学エージェントを合成して実行することができる。
論文 参考訳(メタデータ) (2025-12-23T16:04:41Z) - ExpVid: A Benchmark for Experiment Video Understanding & Reasoning [65.17173232816818]
科学実験ビデオ上でMLLMを体系的に評価する最初のベンチマークであるExpVidを紹介する。
ExpVid 上で 19 個のMLLM を評価し, 粗粒度認識に優れる一方で, 詳細さの曖昧化, 時間経過による状態変化の追跡, 実験手順と科学的成果のリンクに苦慮していることがわかった。
この結果から,特に高次推論において,プロプライエタリモデルとオープンソースモデルとの顕著なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-10-13T16:45:28Z) - LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents [103.65422553044816]
LabUtopiaは、一般化可能な推論可能なエンボディエージェントの開発を容易にするために設計された総合的なシミュレーションとベンチマークスイートである。
30の異なるタスクをサポートし、200以上のシーンと楽器の資産を含んでいる。
LabUtopiaは、科学的目的のエージェントにおける知覚、計画、制御の統合を促進する強力なプラットフォームを提供していることを実証する。
論文 参考訳(メタデータ) (2025-05-28T17:50:53Z) - Autonomous Microscopy Experiments through Large Language Model Agents [4.241267255764773]
大規模言語モデル(LLM)は、材料研究のための自己運転実験室(SDL)に革命をもたらしている。
LLM駆動エージェントによる原子間力顕微鏡の自動化フレームワークであるArtificially Intelligent Lab Assistant (AILA)を紹介する。
アートモデルの現状が,基本的なタスクや調整シナリオに苦労していることに気付きました。
論文 参考訳(メタデータ) (2024-12-18T09:35:28Z) - Agents for self-driving laboratories applied to quantum computing [2.840384720502993]
本稿では,実験者の実験知識の組織化とエージェントによる実験の自動化を支援するため,k-agentsフレームワークを提案する。
本フレームワークでは,実験結果の分析方法を含む実験室の知識をカプセル化するために,大規模言語モデルに基づくエージェントを用いている。
実験を自動化するために,複数ステップの実験手順をエージェントベースの状態マシンに分割し,他のエージェントと対話して各ステップを実行し,実験結果を解析する実行エージェントを導入する。
論文 参考訳(メタデータ) (2024-12-10T23:30:44Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。