論文の概要: IMAC-AgriVLN: Can Agricultural Vision-and-Language Navigation Agents be Aware of Instruction Mistakes?
- arxiv url: http://arxiv.org/abs/2606.02519v2
- Date: Mon, 08 Jun 2026 06:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.787391
- Title: IMAC-AgriVLN: Can Agricultural Vision-and-Language Navigation Agents be Aware of Instruction Mistakes?
- Title(参考訳): IMAC-AgriVLN:農業用視覚・言語ナビゲーションエージェントは教育ミスに気付くか?
- Authors: Xiaobei Zhao, Xingqi Lyu, Xin Chen, Xiang Li,
- Abstract要約: そこで本研究では,各命令に3つの誤り分類を挿入する半自動データアノテータを提案する。
いくつかの最先端の農業用VLN剤を試験し,SRでは57%,NEでは-9%の低下を示した。
本稿では,命令の誤りの有無を判定し,必要に応じて修正しようとするIMACモジュールを提案する。
- 参考スコア(独自算出の注目度): 7.270093282559589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agricultural robots are serving as powerful assistants across a wide range of agricultural tasks, nevertheless, still heavily relying on manual operations or railway systems for movement. The AgriVLN method and the A2A benchmark pioneeringly extended Vision-and-Language Navigation (VLN) to the agricultural domain, enabling a robot to navigate to a target position following a natural language instruction. However, almost all the prior methods adopt an ideal assumption that the given instructions themselves are correct, which does not align with the realistic scenarios, because anybody may say an instruction with mistakes. To bridge this gap, we propose the A2A-MI benchmark, in which we build a semi-automatic data annotator to insert three mistake classifications into each original instruction in a more diversified and efficient way. We test several state-of-the-art agricultural VLN agents on it and observe a sufficient drop with -57% on SR and -9% on NE, from which we suggest that an agricultural VLN agent tends to assume that the given instruction is correct, so does not have the awareness to doubt it when the scenes it sees do not align with the instruction it receives. To build the awareness on instruction mistake, we propose the IMAC module analyzing the instruction and the current front-facing image, to judge whether the instruction has mistakes and attempt to correct it when needed. We integrate IMAC into the baseline model, and observe a noteworthy improvement, sufficiently narrowing the gap to the performance on instructions without mistakes. Project: https://github.com/AlexTraveling/IMAC-AgriVLN.
- Abstract(参考訳): 農業ロボットは、幅広い農業作業において強力なアシスタントとして機能しているが、それでも手動操作や鉄道システムに大きく依存している。
AgriVLN法とA2Aベンチマークは先駆的にVLN(Vision-and-Language Navigation)を農業領域に拡張し、ロボットが自然言語の指示に従って目標位置に移動できるようにする。
しかし、ほとんどの以前の手法は、与えられた命令自体が正しいという理想的な仮定を採用しており、これは現実的なシナリオと一致しない。
このギャップを埋めるため、我々はA2A-MIベンチマークを提案し、より多様化された効率的な方法で3つの誤り分類を元の命令に挿入する半自動データアノテータを構築した。
いくつかの最先端の農業用VLN剤を試験し、SRが57%、NEが-9%の十分な低下を観測し、農業用VLN剤が与えられた指示が正しいと仮定する傾向があることを示唆する。
命令誤りに対する認識を構築するために,命令と現在の正面画像を分析したIMACモジュールを提案し,命令に誤りがあるかどうかを判断し,必要に応じて修正を試みる。
我々はIMACをベースラインモデルに統合し、注目すべき改善を観察する。
プロジェクト:https://github.com/AlexTraveling/IMAC-AgriVLN。
関連論文リスト
- AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation [78.80536515102305]
VLN(Vision-and-Language Navigation)は、エージェントが視覚環境内の自身の動きに言語命令を接地する必要がある。
本稿では,ナビゲーションモデルに自己認識推論機構を備えた新しいフレームワークであるAwareVLNを提案する。
提案手法は,(1)空間的およびタスク指向の自己認識を促進する構造的推論モジュール,(2)効果的な学習のための進歩分担付き自動データエンジンの2つの重要な革新を特徴とする。
論文 参考訳(メタデータ) (2026-05-21T17:58:26Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - SUM-AgriVLN: Spatial Understanding Memory for Agricultural Vision-and-Language Navigation [3.9186557599917293]
AgriVLN法とA2Aベンチマークは先駆的にビジョン・アンド・ランゲージ・ナビゲーション(VLN)を農業領域に拡張した。
現実的な農業シナリオでは、ナビゲーション命令が繰り返されるが、AgriVLNはそれぞれの命令を独立したエピソードとして扱う。
農業用視覚・言語ナビゲーション(SUM-AgriVLN)のための空間的記憶法を提案する。
論文 参考訳(メタデータ) (2025-10-16T06:53:32Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - AgriVLN: Vision-and-Language Navigation for Agricultural Robots [4.566850249315913]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、ロボットが目標とする目的地への移動を可能にする。
既存のベンチマークや方法はいずれも、農業シーン用に特別に設計されていない。
我々は6つの多様な農業シーンにまたがる1,560エピソードを含む農業と農業のベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:07:23Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。