論文の概要: VLMgineer: Vision Language Models as Robotic Toolsmiths
- arxiv url: http://arxiv.org/abs/2507.12644v1
- Date: Wed, 16 Jul 2025 21:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.277184
- Title: VLMgineer: Vision Language Models as Robotic Toolsmiths
- Title(参考訳): VLMgineer: ロボットツールスミスとしてのビジョン言語モデル
- Authors: George Jiayuan Gao, Tianyu Li, Junyao Shi, Yihan Li, Zizhe Zhang, Nadia Figueroa, Dinesh Jayaraman,
- Abstract要約: VLMgineerは視覚言語モデル(VLM)のコード生成能力を利用するフレームワークである。
VLMgineerを、創造的なツール設計と使用を必要とする日常的な操作シナリオの多様なベンチマークで評価する。
- 参考スコア(独自算出の注目度): 17.25435891046774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tool design and use reflect the ability to understand and manipulate the physical world through creativity, planning, and foresight. As such, these capabilities are often regarded as measurable indicators of intelligence across biological species. While much of today's research on robotic intelligence focuses on generating better controllers, inventing smarter tools offers a complementary form of physical intelligence: shifting the onus of problem-solving onto the tool's design. Given the vast and impressive common-sense, reasoning, and creative capabilities of today's foundation models, we investigate whether these models can provide useful priors to automatically design and effectively wield such tools? We present VLMgineer, a framework that harnesses the code generation abilities of vision language models (VLMs) together with evolutionary search to iteratively co-design physical tools and the action plans that operate them to perform a task. We evaluate VLMgineer on a diverse new benchmark of everyday manipulation scenarios that demand creative tool design and use. Across this suite, VLMgineer consistently discovers tools and policies that solve tasks more effectively and innovatively, transforming challenging robotics problems into straightforward executions. It also outperforms VLM-generated designs from human specifications and existing human-crafted tools for everyday tasks. To facilitate future research on automated tool invention, we will release our benchmark and code.
- Abstract(参考訳): ツールの設計と使用は、創造性、計画、前見を通して物理的な世界を理解し、操作する能力を反映している。
そのため、これらの能力は生物種間での知能の測定可能な指標とみなされることが多い。
ロボットインテリジェンスに関する今日の研究の多くは、より良いコントローラを生成することに焦点を当てているが、よりスマートなツールの発明は、物理的なインテリジェンスを補完する形で提供する。
今日のファンデーションモデルの巨大な、そして印象的な常識、推論、そして創造的な能力を考えると、これらのモデルがそのようなツールを自動設計し効果的に操作するための有用な事前情報を提供できるかどうかを調査する。
本稿では,視覚言語モデル(VLM)のコード生成能力を活用するフレームワークであるVLMgineerについて述べる。
VLMgineerを、創造的なツール設計と使用を必要とする日常的な操作シナリオの多様なベンチマークで評価する。
このスイート全体で、VLMgineerは、タスクをより効率的かつ革新的に解決するツールとポリシーを一貫して発見し、挑戦的なロボティクス問題を簡単な実行に変換する。
また、VLMが生成した設計を人間仕様と既存の人造ツールで上回り、日々の作業に役立てている。
自動化ツールの発明に関する今後の研究を促進するため、ベンチマークとコードを公開します。
関連論文リスト
- ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Creative Robot Tool Use with Large Language Models [47.11935262923095]
本稿では,暗黙的な身体的制約や長期計画を含むタスクにおいて,ツールを創造的に活用できるロボットの実現可能性について検討する。
我々は、自然言語命令を受け入れ、シミュレーションと実環境の両方でロボットを制御する実行可能なコードを出力するシステムであるRoboToolを開発した。
論文 参考訳(メタデータ) (2023-10-19T18:02:15Z) - Learning Generalizable Tool-use Skills through Trajectory Generation [13.879860388944214]
4つの異なる変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。
モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。
トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2023-09-29T21:32:42Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - Tool Learning with Foundation Models [158.8640687353623]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。
その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-04-17T15:16:10Z) - TANGO: Commonsense Generalization in Predicting Tool Interactions for
Mobile Manipulators [15.61285199988595]
タスク固有のツール相互作用を予測するための新しいニューラルモデルであるTANGOを紹介します。
TANGOは、グラフニューラルネットワークを使用して、オブジェクトとそれらの間のシンボリックな関係からなる世界状態をエンコードする。
知識ベースから学習した組込みによる環境表現の強化により,新しい環境に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2021-05-05T18:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。