論文の概要: AgriVLN: Vision-and-Language Navigation for Agricultural Robots
- arxiv url: http://arxiv.org/abs/2508.07406v1
- Date: Sun, 10 Aug 2025 16:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.846258
- Title: AgriVLN: Vision-and-Language Navigation for Agricultural Robots
- Title(参考訳): AgriVLN:農業用ロボットの視覚・言語ナビゲーション
- Authors: Xiaobei Zhao, Xingqi Lyu, Xiang Li,
- Abstract要約: VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、ロボットが目標とする目的地への移動を可能にする。
既存のベンチマークや方法はいずれも、農業シーン用に特別に設計されていない。
我々は6つの多様な農業シーンにまたがる1,560エピソードを含む農業と農業のベンチマークを提案する。
- 参考スコア(独自算出の注目度): 4.566850249315913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agricultural robots have emerged as powerful members in agricultural tasks, nevertheless, still heavily rely on manual operation or untransportable railway for movement, resulting in limited mobility and poor adaptability. Vision-and-Language Navigation (VLN) enables robots to navigate to the target destinations following natural language instructions, demonstrating strong performance on several domains. However, none of the existing benchmarks or methods is specifically designed for agricultural scenes. To bridge this gap, we propose Agriculture to Agriculture (A2A) benchmark, containing 1,560 episodes across six diverse agricultural scenes, in which all realistic RGB videos are captured by front-facing camera on a quadruped robot at a height of 0.38 meters, aligning with the practical deployment conditions. Meanwhile, we propose Vision-and-Language Navigation for Agricultural Robots (AgriVLN) baseline based on Vision-Language Model (VLM) prompted with carefully crafted templates, which can understand both given instructions and agricultural environments to generate appropriate low-level actions for robot control. When evaluated on A2A, AgriVLN performs well on short instructions but struggles with long instructions, because it often fails to track which part of the instruction is currently being executed. To address this, we further propose Subtask List (STL) instruction decomposition module and integrate it into AgriVLN, improving Success Rate (SR) from 0.33 to 0.47. We additionally compare AgriVLN with several existing VLN methods, demonstrating the state-of-the-art performance in the agricultural domain.
- Abstract(参考訳): 農業用ロボットは、農業作業において強力なメンバーとして登場したが、それでも手動運転や輸送不可能な鉄道に強く依存しており、移動性が制限され、適応性が低下している。
VLN(Vision-and-Language Navigation)は、ロボットが自然言語の指示に従って目的地へ移動し、複数のドメインで強力なパフォーマンスを示す。
しかし、既存のベンチマークや方法はいずれも農業シーン用に特別に設計されていない。
このギャップを埋めるために、我々は6つの異なる農業シーンに1,560エピソードを収録したA2Aベンチマークを提案し、現実的なRGBビデオはすべて、0.38mの高さの四足歩行ロボットの前面カメラで撮影され、実際の展開条件と整合する。
一方,VLM(Vision-Language Model)に基づく農業用ロボットのためのビジョン・アンド・ランゲージナビゲーション(AgriVLN)ベースラインを提案する。
A2Aで評価すると、AgriVLNは短い命令でうまく機能するが、命令のどの部分が現在実行されているかを追跡できないため、長い命令で苦労する。
これを解決するために、サブタスクリスト(STL)命令分解モジュールを提案し、それをAgriVLNに統合し、成功率(SR)を0.33から0.47に改善する。
さらに,AgriVLNを既存のVLN法と比較し,農業領域における最先端性能を実証した。
関連論文リスト
- One For All: LLM-based Heterogeneous Mission Planning in Precision Agriculture [2.9440788521375585]
我々は、非特殊主義者が異種ロボットを制御できる自然言語(NL)ロボットミッションプランナーを提案する。
我々のアーキテクチャは、人間の言語をさまざまなロボットプラットフォームで実行可能な中間記述にシームレスに翻訳します。
この研究は、精密農業におけるロボットの自動化を非技術ユーザーにとってよりアクセスしやすいものにするための重要なステップである。
論文 参考訳(メタデータ) (2025-06-11T18:45:44Z) - NaVILA: Legged Robot Vision-Language-Action Model for Navigation [60.00462044102051]
人間の言語命令を低レベルの脚関節動作に翻訳するのは簡単ではない。
そこで我々は,VLA(Vision-Language-Action Model)とロコモーションスキルを一体化した2レベルフレームワークであるNaVILAを提案する。
NaVILAは既存のベンチマークのアプローチを大幅に改善している。
論文 参考訳(メタデータ) (2024-12-05T18:58:17Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Towards Autonomous Crop-Agnostic Visual Navigation in Arable Fields [2.6323812778809907]
本稿では,視覚に基づくナビゲーション方式を導入し,ロボットを行グラフのフィールドから確実に誘導する手法を提案する。
新たな作物群検出技術と新しい作物群切替技術によって,ナビゲーション手法を幅広い分野に展開することが可能となった。
論文 参考訳(メタデータ) (2021-09-24T12:54:42Z) - Local Motion Planner for Autonomous Navigation in Vineyards with a RGB-D
Camera-Based Algorithm and Deep Learning Synergy [1.0312968200748118]
本研究では、ブドウ畑における自律走行のための低コストな局所移動プランナを提案する。
最初のアルゴリズムは、不均一マップとその深さ表現を利用して、ロボットプラットフォームに対する比例制御を生成する。
第2のバックアップアルゴリズムは、学習の学習に基づいており、照明の変動に耐性があり、第1ブロックが瞬間的に故障した場合にマシンを制御できる。
論文 参考訳(メタデータ) (2020-05-26T15:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。