論文の概要: General Scene Adaptation for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2501.17403v1
- Date: Wed, 29 Jan 2025 03:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:55:08.963508
- Title: General Scene Adaptation for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための一般的なシーン適応
- Authors: Haodong Hong, Yanyuan Qiao, Sen Wang, Jiajun Liu, Qi Wu,
- Abstract要約: VLN(Vision-and-Language Navigation)タスクは、主に複数の環境にまたがる個々の命令のワンタイム実行に基づいてエージェントを評価する。
GSA-VLNは、エージェントが特定のシーン内でナビゲーション命令を実行し、時間とともにパフォーマンスを向上させるために同時にそれに対応することを要求する新しいタスクである。
本稿では,新しいデータセット GSA-R2R を提案し,R2R データセットに対する環境と指示の多様性と量を大幅に拡張する。
- 参考スコア(独自算出の注目度): 19.215183093931785
- License:
- Abstract: Vision-and-Language Navigation (VLN) tasks mainly evaluate agents based on one-time execution of individual instructions across multiple environments, aiming to develop agents capable of functioning in any environment in a zero-shot manner. However, real-world navigation robots often operate in persistent environments with relatively consistent physical layouts, visual observations, and language styles from instructors. Such a gap in the task setting presents an opportunity to improve VLN agents by incorporating continuous adaptation to specific environments. To better reflect these real-world conditions, we introduce GSA-VLN, a novel task requiring agents to execute navigation instructions within a specific scene and simultaneously adapt to it for improved performance over time. To evaluate the proposed task, one has to address two challenges in existing VLN datasets: the lack of OOD data, and the limited number and style diversity of instructions for each scene. Therefore, we propose a new dataset, GSA-R2R, which significantly expands the diversity and quantity of environments and instructions for the R2R dataset to evaluate agent adaptability in both ID and OOD contexts. Furthermore, we design a three-stage instruction orchestration pipeline that leverages LLMs to refine speaker-generated instructions and apply role-playing techniques to rephrase instructions into different speaking styles. This is motivated by the observation that each individual user often has consistent signatures or preferences in their instructions. We conducted extensive experiments on GSA-R2R to thoroughly evaluate our dataset and benchmark various methods. Based on our findings, we propose a novel method, GR-DUET, which incorporates memory-based navigation graphs with an environment-specific training strategy, achieving state-of-the-art results on all GSA-R2R splits.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)タスクは、主に複数の環境にまたがる個別命令の1回実行に基づいてエージェントを評価し、ゼロショット方式で任意の環境で機能するエージェントを開発することを目的としている。
しかし、現実のナビゲーションロボットは、比較的一貫した物理的レイアウト、視覚的な観察、インストラクターの言語スタイルを持つ永続的な環境で運用されることが多い。
このようなタスク設定のギャップは、特定の環境への継続的適応を取り入れることで、VLNエージェントを改善する機会を与える。
GSA-VLNは、エージェントが特定のシーン内でナビゲーション命令を実行し、時間とともにパフォーマンスを向上させるために同時にそれに対応することを要求する新しいタスクである。
提案課題を評価するためには,既存のVLNデータセットの2つの課題に対処する必要がある。
そこで本研究では, エージェント適応性を評価するため, エージェント適応性を評価するため, R2Rデータセットの環境と環境の多様性を著しく拡張するGSA-R2Rを提案する。
さらに,LLMを利用した3段階の命令オーケストレーションパイプラインを設計し,話者生成命令を洗練し,異なる話し方で命令を表現するためのロールプレイング手法を適用した。
これは、個々のユーザーが命令に一貫した署名や好みを持つことが多いという観察によって動機づけられる。
我々はGSA-R2Rの広範な実験を行い、データセットを徹底的に評価し、様々な手法をベンチマークした。
そこで本研究では,GSA-R2Rスプリットに対して,メモリベースのナビゲーショングラフを環境固有のトレーニング戦略に組み込む新しい手法GR-DUETを提案する。
関連論文リスト
- From Goal-Conditioned to Language-Conditioned Agents via Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Generative Language-Grounded Policy in Vision-and-Language Navigation
with Bayes' Rule [80.0853069632445]
視覚言語ナビゲーション(VLN)は、エージェントが現実的な3D環境に具体化され、目標ノードに到達するための指示に従うタスクである。
本稿では,言語モデルを用いて可能なすべての命令の分布を計算する生成言語基底ポリシーの設計と検討を行う。
実験では,提案手法がRoom-2-Room (R2R) とRoom-4-Room (R4R) データセット,特に未確認環境において差別的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-16T16:23:17Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z) - Multi-View Learning for Vision-and-Language Navigation [163.20410080001324]
EveryOne(LEO)から学ぶことは、視覚環境でのナビゲーションを学ぶためのトレーニングパラダイムです。
命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習する。
最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはgreedyエージェントよりも16%改善(絶対)されている。
論文 参考訳(メタデータ) (2020-03-02T13:07:46Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。