論文の概要: Masked Path Modeling for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2305.14268v1
- Date: Tue, 23 May 2023 17:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:15:13.424813
- Title: Masked Path Modeling for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのためのマスクドパスモデリング
- Authors: Zi-Yi Dou, Feng Gao, Nanyun Peng
- Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。
以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。
本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
- 参考スコア(独自算出の注目度): 41.7517631477082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-language navigation (VLN) agents are trained to navigate in
real-world environments by following natural language instructions. A major
challenge in VLN is the limited availability of training data, which hinders
the models' ability to generalize effectively. Previous approaches have
attempted to address this issue by introducing additional supervision during
training, often requiring costly human-annotated data that restricts
scalability. In this paper, we introduce a masked path modeling (MPM)
objective, which pretrains an agent using self-collected data for downstream
navigation tasks. Our proposed method involves allowing the agent to actively
explore navigation environments without a specific goal and collect the paths
it traverses. Subsequently, we train the agent on this collected data to
reconstruct the original path given a randomly masked subpath. This way, the
agent can actively accumulate a diverse and substantial amount of data while
learning conditional action generation. To evaluate the effectiveness of our
technique, we conduct experiments on various VLN datasets and demonstrate the
versatility of MPM across different levels of instruction complexity. Our
results exhibit significant improvements in success rates, with enhancements of
1.32\%, 1.05\%, and 1.19\% on the val-unseen split of the Room-to-Room,
Room-for-Room, and Room-across-Room datasets, respectively. Furthermore, we
conduct an analysis that highlights the potential for additional improvements
when the agent is allowed to explore unseen environments prior to testing.
- Abstract(参考訳): 視覚言語ナビゲーション(vln)エージェントは、自然言語命令に従うことで現実世界の環境をナビゲートするように訓練される。
VLNの大きな課題は、トレーニングデータの可用性の制限であり、モデルが効果的に一般化する能力を妨げている。
従来のアプローチでは、トレーニング中に追加の監視を導入することでこの問題に対処しようとしていた。
本稿では,下流ナビゲーションタスクに自己収集データを用いてエージェントを事前学習するマスキングパスモデリング(mpm)の目的について述べる。
提案手法では,特定の目標を満たさずにナビゲーション環境を積極的に探索し,横断する経路を収集する。
その後、この収集データに基づいてエージェントを訓練し、ランダムにマスクされたサブパスが与えられた元のパスを再構築する。
このように、エージェントは条件付きアクション生成を学習しながら、多様でかなりの量のデータを積極的に蓄積することができる。
提案手法の有効性を評価するため,様々なVLNデータセットを用いて実験を行い,命令複雑性の異なるレベルのPMの汎用性を実証した。
その結果,Room-to-Roomデータセット,Room-for-Roomデータセット,Room-across-Roomデータセットのval-unseen分割における1.32\%,1.05\%, 1.19\%の改善が得られた。
さらに,エージェントが未発見の環境をテスト前に探索できる場合,さらなる改善の可能性を強調した分析を行う。
関連論文リスト
- TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。
スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。
我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:32:51Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Bridging the Gap Between Learning in Discrete and Continuous
Environments for Vision-and-Language Navigation [41.334731014665316]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存の作業のほとんどは、離散的または連続的な環境に焦点を当てている。
ナビゲーション中に候補となるウェイポイントの集合を生成するための予測器を提案する。
予測された経路点を持つ連続環境を航行するエージェントは,低レベル動作を使用するエージェントよりも有意に優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-05T14:56:14Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。