論文の概要: Agentic Language-to-Objective Synthesis for Optofluidic Assembly
- arxiv url: http://arxiv.org/abs/2605.27643v1
- Date: Tue, 26 May 2026 20:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.496181
- Title: Agentic Language-to-Objective Synthesis for Optofluidic Assembly
- Title(参考訳): 光流体集合のためのエージェント言語対目的合成
- Authors: Ivan Saraev, Elena Erben, Weida Liao, Fan Nan, Gerhard Neumann, Eric Lauga, Moritz Kreysing,
- Abstract要約: Speak-to-Objectiveは、条件付きLarge Language Model(LLM)を使用して、音声または文字のコマンドを微分可能な目的関数に変換するモジュール型エージェントパイプラインである。
マイクロ流体環境下での粒子パターンの自然流動プログラム型光マイクロスケールアセンブリを実証する。
我々の研究は、自然言語、微分可能な目的、レーザーベースのアクチュエータが再利用可能なデジタルワークフローに結合される、自動運転、AI支援光学製造プラットフォームに向けられている。
- 参考スコア(独自算出の注目度): 15.44409126318852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Light-based advanced manufacturing increasingly requires programmable, closed-loop tools that translate human design intent into executable operations at small length scales. Yet a key bottleneck persists across robotic and manufacturing modalities: turning user intent into machine-readable objectives that are reliably executable. While micro-robotics offers versatile manipulation via optical actuation of fluids, mathematically tractable goal specification remains manual and hard to reuse. Here, we introduce Speak-to-Objective, a modular agentic pipeline that uses a conditioned Large Language Model (LLM) to translate spoken or written commands into fully differentiable objective functions for assembling microparticles in a constraint-aware inverse solver (SLSQP) and on an experimental optofluidic platform. The approach employs a compact loop - perceive -> compose -> propose -> act -> report & learn - that treats the objective as the interface between intent and actuation, separating what to assemble or pattern from how to actuate, while learning from user feedback. The pipeline composes geometry, spacing, and assignment/topology terms to generate robust descriptive objectives that assemble from partial traces and recover after perturbations, as well as explicit objectives for precise placement, all in an actuator-agnostic fashion. Using laser-induced thermoviscous flows as the physical actuation modality, we demonstrate natural-language-programmable, light-based microscale assembly of particle patterns in a microfluidic environment. Beyond its immediate impact on programmable microassembly, and using laser-induced optofluidic actuation as a reduced-complexity experimental platform, our work points toward self-driving, AI-assisted optical manufacturing platforms in which natural language, differentiable objectives, and laser-based actuation are coupled into a reusable digital workflow.
- Abstract(参考訳): 光ベースの先進的な製造では、人間の設計意図を小さなスケールで実行可能な操作に変換するプログラム可能なクローズドループツールがますます必要になる。
しかし、ロボットや製造における重要なボトルネックは、ユーザの意図を確実に実行可能なマシン可読な目標に変えることにある。
マイクロロボティクスは流体の光学的アクチュエータによる多用途操作を提供するが、数学的に抽出可能な目標仕様は手動で、再利用は困難である。
本稿では,Large Language Model (LLM) を用いたモジュール型エージェントパイプラインであるSpeak-to-Objectiveを紹介した。
このアプローチでは,目的を意図と動作のインターフェースとして扱う,コンパクトなループ – 知覚 -> 構成 -> 提案 -> 行動 -> 報告と学習 - を採用して,ユーザのフィードバックから学びながら,何を組み立てるか,あるいはパターンを分離する。
パイプラインは、幾何、間隔、割り当て/トポロジーの用語を構成し、部分的トレースから組み立て、摂動後に回復する堅牢な記述的目的を生成する。
レーザー誘起熱粘性流を物理アクチュエーターとして用いて,マイクロ流体環境下での粒子パターンの自然言語でプログラム可能な,光による微視的組立を実演した。
プログラム可能なマイクロアセンブリへの直接的な影響に加えて、レーザー誘起光流体アクチュエーターを低複雑さな実験プラットフォームとして使用することに加えて、自然言語、微分可能な目的、およびレーザーベースのアクチュエーターを再利用可能なデジタルワークフローに結合する、自律型AI支援光製造プラットフォームに向けた作業点も持っています。
関連論文リスト
- Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation [46.06124092071133]
ロボット操作のための新しい動き指向キーポイント(CoMOK)の定式化を提案する。
私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
論文 参考訳(メタデータ) (2025-09-25T07:29:07Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。