Fugu-MT 論文翻訳(概要): Visual-Language-Guided Task Planning for Horticultural Robots

論文の概要: Visual-Language-Guided Task Planning for Horticultural Robots

arxiv url: http://arxiv.org/abs/2601.11906v1
Date: Sat, 17 Jan 2026 04:45:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 05:47:40.072674
Title: Visual-Language-Guided Task Planning for Horticultural Robots
Title（参考訳）: 園芸ロボットの視覚言語指導型タスクプランニング
Authors: Jose Cuaran, Kendall Koe, Aditya Potnis, Naveen Kumar Uppalapati, Girish Chowdhary,
Abstract要約: ロボットタスク計画の指針として視覚言語モデル(VLM)を用いた新しいモジュラーフレームワークを提案する。本研究は,単作・多作環境における短期・長期の作物モニタリングタスクのベンチマークに貢献する。
参考スコア（独自算出の注目度）: 7.247976293510842
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Crop monitoring is essential for precision agriculture, but current systems lack high-level reasoning. We introduce a novel, modular framework that uses a Visual Language Model (VLM) to guide robotic task planning, interleaving input queries with action primitives. We contribute a comprehensive benchmark for short- and long-horizon crop monitoring tasks in monoculture and polyculture environments. Our main results show that VLMs perform robustly for short-horizon tasks (comparable to human success), but exhibit significant performance degradation in challenging long-horizon tasks. Critically, the system fails when relying on noisy semantic maps, demonstrating a key limitation in current VLM context grounding for sustained robotic operations. This work offers a deployable framework and critical insights into VLM capabilities and shortcomings for complex agricultural robotics.
Abstract（参考訳）: 作物のモニタリングは精密農業には不可欠であるが、現在のシステムは高いレベルの推論を欠いている。本稿では,視覚言語モデル(VLM)を用いてロボットタスク計画のガイドを行い,入力クエリをアクションプリミティブとインターリーブする新しいモジュラーフレームワークを提案する。単作・多作環境における短期・長期の作物モニタリングタスクの総合的ベンチマークに貢献する。本研究の主目的は,VLMが短時間作業(人的成功に匹敵する)に対して頑健に機能することを示したが,長期作業に挑戦する際の性能劣化は顕著であった。クリティカルなことに、システムはノイズの多いセマンティックマップに依存するときに失敗し、持続的なロボット操作のための現在のVLMコンテキストグラウンドにおいて重要な制限を示す。この作業は、デプロイ可能なフレームワークと、複雑な農業ロボティクスのVLM機能と欠点に関する重要な洞察を提供する。

関連論文リスト

Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文参考訳（メタデータ） (2025-11-27T18:50:21Z)
RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文参考訳（メタデータ） (2025-06-07T06:15:49Z)
Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文参考訳（メタデータ） (2024-07-26T21:18:57Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文参考訳（メタデータ） (2023-10-16T09:30:45Z)
Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文参考訳（メタデータ） (2023-10-03T17:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。