論文の概要: Compact Task-Aligned Imitation Learning for Laboratory Automation
- arxiv url: http://arxiv.org/abs/2603.01110v1
- Date: Sun, 01 Mar 2026 13:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.797208
- Title: Compact Task-Aligned Imitation Learning for Laboratory Automation
- Title(参考訳): 実験室自動化のための小型タスク適応型模倣学習
- Authors: Kanata Suzuki, Hanon Nakamurama, Kana Miyamoto, Tetsuya Ogata,
- Abstract要約: そこで本研究では,小規模基礎モデルを用いた実験室自動化のためのコンパクトな模倣学習フレームワークを提案する。
TVF-DiTは、自己監督型視覚基盤モデルと、コンパクトアダプターを通して視覚言語モデルとを一致させる。
実世界の3つの実験室での試験では、平均成功率は86.6%であった。
- 参考スコア(独自算出の注目度): 3.1796322524432092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic laboratory automation has traditionally relied on carefully engineered motion pipelines and task-specific hardware interfaces, resulting in high design cost and limited flexibility. While recent imitation learning techniques can generate general robot behaviors, their large model sizes often require high-performance computational resources, limiting applicability in practical laboratory environments. In this study, we propose a compact imitation learning framework for laboratory automation using small foundation models. The proposed method, TVF-DiT, aligns a self-supervised vision foundation model with a vision-language model through a compact adapter, and integrates them with a Diffusion Transformer-based action expert. The entire model consists of fewer than 500M parameters, enabling inference on low-VRAM GPUs. Experiments on three real-world laboratory tasks - test tube cleaning, test tube arrangement, and powder transfer - demonstrate an average success rate of 86.6%, significantly outperforming alternative lightweight baselines. Furthermore, detailed task prompts improve vision-language alignment and task performance. These results indicate that small foundation models, when properly aligned and integrated with diffusion-based policy learning, can effectively support practical laboratory automation with limited computational resources.
- Abstract(参考訳): ロボット実験室の自動化は、伝統的に慎重に設計されたモーションパイプラインとタスク固有のハードウェアインターフェースに依存しており、設計コストが高く、柔軟性が制限されている。
最近の模倣学習技術は一般的なロボットの動作を生成することができるが、その大きなモデルサイズは、しばしば高性能な計算資源を必要とし、実用的な実験室環境での適用性を制限している。
本研究では,小規模基礎モデルを用いた実験室自動化のためのコンパクトな模倣学習フレームワークを提案する。
提案手法であるTVF-DiTは,自己教師付き視覚基盤モデルと,コンパクトアダプターを介して視覚言語モデルとを整合させ,Diffusion Transformerベースのアクションエキスパートと統合する。
モデル全体は5M未満のパラメータで構成されており、低VRAMGPUでの推論を可能にする。
実世界の3つの実験室(試験管洗浄、試験管配置、粉体移動)の実験では、平均成功率は86.6%であり、代替の軽量ベースラインよりも大幅に優れていた。
さらに、詳細なタスクプロンプトにより、視覚言語アライメントとタスクパフォーマンスが向上する。
これらの結果から,拡散型政策学習と適切に整合して統合された小さな基礎モデルは,計算資源が限られている実用的な実験室の自動化を効果的に支援できることが示唆された。
関連論文リスト
- Revealing the Power of Post-Training for Small Language Models via Knowledge Distillation [43.68215777330875]
我々は,小型モデルの精度を効果的に向上する,系統的な後学習パイプラインを導入する。
結果として得られた命令調整モデルにより、最先端のパフォーマンスが達成される。
この研究は、Ascendエッジデバイス上で高性能言語モデルを開発するための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-30T16:40:55Z) - Perspective on Utilizing Foundation Models for Laboratory Automation in Materials Research [6.793869699081147]
本総説では, 材料・化学分野における実験室の自動化を推し進める基礎モデルの可能性について考察する。
実験計画とデータ分析のための認知機能と、ハードウェア操作のための物理的機能である。
近年の進歩は、大規模言語モデル(LLM)とマルチモーダルロボットシステムを用いて、複雑でダイナミックな実験室タスクを処理できることを実証している。
論文 参考訳(メタデータ) (2025-06-14T02:22:28Z) - Edge-AI for Agriculture: Lightweight Vision Models for Disease Detection in Resource-Limited Settings [0.0]
提案システムは,エッジデバイスへの展開に最適化された高度なオブジェクト検出,分類,セグメンテーションモデルを統合する。
本研究は, 精度, 計算効率, 一般化能力に着目し, 各種最先端モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-23T06:48:50Z) - PAL -- Parallel active learning for machine-learned potentials [2.787885218564319]
PALは、ALタスクを統合し、共有メモリおよび分散メモリシステム上での実行と通信を管理する。
PALは計算オーバーヘッドを大幅に削減し、スケーラビリティを向上し、CPUとGPUハードウェアの非同期並列化による大幅なスピードアップを実現している。
この結果から,PALは能動的学習における高性能コンピューティング資源の効率的な活用を可能にし,科学研究・工学応用の進歩を促進することが示唆された。
論文 参考訳(メタデータ) (2024-11-30T08:49:53Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via
Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。
SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。
我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文 参考訳(メタデータ) (2022-10-27T05:30:43Z) - Towards Augmented Microscopy with Reinforcement Learning-Enhanced
Workflows [0.0]
我々は,電子ビームを事前の知識なく自律的に整列させるネットワークをテスト・開発するための仮想環境を開発する。
我々は、顕微鏡上で成功したモデルをデプロイし、そのアプローチを検証し、適切な仮想環境を設計する価値を実証する。
全体としては、RLを利用することで、広範囲なアルゴリズム設計を必要とせずに、顕微鏡操作を自動化できることが示されている。
論文 参考訳(メタデータ) (2022-08-04T20:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。