論文の概要: SUM-AgriVLN: Spatial Understanding Memory for Agricultural Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2510.14357v1
- Date: Thu, 16 Oct 2025 06:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.751971
- Title: SUM-AgriVLN: Spatial Understanding Memory for Agricultural Vision-and-Language Navigation
- Title(参考訳): SUM-AgriVLN:農業用視覚・言語ナビゲーションのための空間的記憶
- Authors: Xiaobei Zhao, Xingqi Lyu, Xiang Li,
- Abstract要約: AgriVLN法とA2Aベンチマークは先駆的にビジョン・アンド・ランゲージ・ナビゲーション(VLN)を農業領域に拡張した。
現実的な農業シナリオでは、ナビゲーション命令が繰り返されるが、AgriVLNはそれぞれの命令を独立したエピソードとして扱う。
農業用視覚・言語ナビゲーション(SUM-AgriVLN)のための空間的記憶法を提案する。
- 参考スコア(独自算出の注目度): 3.9186557599917293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agricultural robots are emerging as powerful assistants across a wide range of agricultural tasks, nevertheless, still heavily rely on manual operation or fixed rail systems for movement. The AgriVLN method and the A2A benchmark pioneeringly extend Vision-and-Language Navigation (VLN) to the agricultural domain, enabling robots to navigate to the target positions following the natural language instructions. In practical agricultural scenarios, navigation instructions often repeatedly occur, yet AgriVLN treat each instruction as an independent episode, overlooking the potential of past experiences to provide spatial context for subsequent ones. To bridge this gap, we propose the method of Spatial Understanding Memory for Agricultural Vision-and-Language Navigation (SUM-AgriVLN), in which the SUM module employs spatial understanding and save spatial memory through 3D reconstruction and representation. When evaluated on the A2A benchmark, our SUM-AgriVLN effectively improves Success Rate from 0.47 to 0.54 with slight sacrifice on Navigation Error from 2.91m to 2.93m, demonstrating the state-of-the-art performance in the agricultural domain. Code: https://github.com/AlexTraveling/SUM-AgriVLN.
- Abstract(参考訳): 農業用ロボットは、幅広い農業作業において強力なアシスタントとして登場しているが、それでも手動操作や固定レールシステムに大きく依存している。
AgriVLN法とA2Aベンチマークは先駆的にVLN(Vision-and-Language Navigation)を農業領域に拡張し、ロボットが自然言語の指示に従って目標位置へ移動できるようにする。
現実的な農業シナリオでは、ナビゲーション命令は繰り返し発生するが、AgriVLNはそれぞれの命令を独立したエピソードとして扱い、過去の経験の可能性を見越して、その後のものに対する空間的コンテキストを提供する。
このギャップを埋めるために,SUMモジュールが空間的理解を利用し,空間記憶を3次元再構成・表現することで保存するSUM-AgriVLN(Spatial Understanding Memory for Agricultural Vision-and-Language Navigation)を提案する。
A2Aベンチマークで評価すると、SUM-AgriVLNは、ナビゲーションエラーを2.91mから2.93mにわずかに犠牲にして、成功率を0.47から0.54に効果的に改善し、農業領域における最先端のパフォーマンスを実証した。
コード:https://github.com/AlexTraveling/SUM-AgriVLN。
関連論文リスト
- AgriGPT-VL: Agricultural Vision-Language Understanding Suite [12.521000582108888]
AgriGPT-VL Suiteは、農業のための統一されたマルチモーダルフレームワークである。
我々は,農業における最大のビジョン言語コーパスであるAgri-3M-VLを紹介した。
次に,農業専門の視覚言語モデルであるAgriGPT-VLを開発した。
第3に,AgriBench-VL-4Kという,オープンエンドおよびイメージグラウンドの質問を伴うコンパクトで挑戦的な評価スイートを構築した。
論文 参考訳(メタデータ) (2025-10-05T02:30:11Z) - AgriVLN: Vision-and-Language Navigation for Agricultural Robots [4.566850249315913]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、ロボットが目標とする目的地への移動を可能にする。
既存のベンチマークや方法はいずれも、農業シーン用に特別に設計されていない。
我々は6つの多様な農業シーンにまたがる1,560エピソードを含む農業と農業のベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:07:23Z) - AgroLLM: Connecting Farmers and Agricultural Practices through Large Language Models for Enhanced Knowledge Transfer and Practical Application [1.9643850583333375]
AgroLLMは、Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)フレームワークを使用して、農業における知識共有と教育を強化するように設計されている。
4つの主要農業領域における性能評価のための3つの先進モデルの比較研究を行った。
RAGを用いたChatGPT-4o Miniの精度は93%であった。
論文 参考訳(メタデータ) (2025-02-28T04:13:18Z) - NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM [55.79954652783797]
VLN(Vision-and-Language Navigation)は、エージェントを具現化するための重要なスキルであり、自然言語の指示に従って3D環境をナビゲートすることができる。
従来の方法では、トラジェクトリ動画をステップバイステップでデータ拡張の指示に変換するが、そのような指示はユーザの通信スタイルとうまく一致しない。
本稿では,VLNのユーザ要求命令を生成する検索拡張生成フレームワークであるNavRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T14:17:36Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。