論文の概要: HOP: History-and-Order Aware Pre-training for Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2203.11591v1
- Date: Tue, 22 Mar 2022 10:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:41:19.779601
- Title: HOP: History-and-Order Aware Pre-training for Vision-and-Language
Navigation
- Title(参考訳): HOP: 視覚・言語ナビゲーションのための事前学習
- Authors: Yanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang, Qi Wu
- Abstract要約: 以前のVision-and-Language Navigation (VLN)の事前トレーニング手法には、将来のアクションを予測する能力やコンテキストを無視する能力がない。
本稿では,過去の観測を生かし,今後の行動予測を支援する新しい事前学習パラダイムを提案する。
我々のナビゲーション行動予測は、歴史を伴う行動予測のタスクによって強化される。
- 参考スコア(独自算出の注目度): 33.38079488853708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has been adopted in a few of recent works for
Vision-and-Language Navigation (VLN). However, previous pre-training methods
for VLN either lack the ability to predict future actions or ignore the
trajectory contexts, which are essential for a greedy navigation process. In
this work, to promote the learning of spatio-temporal visual-textual
correspondence as well as the agent's capability of decision making, we propose
a novel history-and-order aware pre-training paradigm (HOP) with VLN-specific
objectives that exploit the past observations and support future action
prediction. Specifically, in addition to the commonly used Masked Language
Modeling (MLM) and Trajectory-Instruction Matching (TIM), we design two proxy
tasks to model temporal order information: Trajectory Order Modeling (TOM) and
Group Order Modeling (GOM). Moreover, our navigation action prediction is also
enhanced by introducing the task of Action Prediction with History (APH), which
takes into account the history visual perceptions. Extensive experimental
results on four downstream VLN tasks (R2R, REVERIE, NDH, RxR) demonstrate the
effectiveness of our proposed method compared against several state-of-the-art
agents.
- Abstract(参考訳): 事前学習は、VLN(Vision-and-Language Navigation)の最近の研究で採用されている。
しかしながら、VLNの以前の事前学習手法には、将来の行動を予測する能力が欠けているか、航法プロセスに不可欠な軌跡を無視する能力がある。
本研究では,時空間的視覚・テキスト対応の学習とエージェントの意思決定能力を促進するため,過去の観察を活用し,今後の行動予測を支援するvln固有の目標を持つ新しい履歴・順序対応事前学習パラダイムを提案する。
具体的には,MLM(Masked Language Modeling)とTIM(Torjectory-Instruction Matching)に加えて,時間次情報(Torjectory Order Modeling,TOM)とグループ次数モデリング(Group Order Modeling,GOM)の2つのプロキシタスクを設計する。
また,過去の視覚知覚を考慮した行動予測タスク(task of action prediction with history, aph)を導入することで,ナビゲーション行動予測も強化した。
4つの下流VLNタスク(R2R,REVERIE,NDH,RxR)の大規模な実験結果から,提案手法の有効性が示された。
関連論文リスト
- Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。
既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。
本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-22T09:15:36Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Improving Vision-and-Language Navigation by Generating Future-View Image
Semantics [96.8435716885159]
VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。
エージェントのドメイン内事前トレーニングにおける3つのプロキシタスクを提案する: Masked Panorama Modeling (MPM)、 Masked Trajectory Modeling (MTM)、Action Prediction with Image Generation (APIG)。
次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップのグラウンド真実ビューセマンティクスとの差を最小限に抑える。
論文 参考訳(メタデータ) (2023-04-11T00:36:02Z) - ENTL: Embodied Navigation Trajectory Learner [37.43079415330256]
エンボディナビゲーションのための長いシーケンス表現を抽出する手法を提案する。
我々は,現在の行動に則った将来の状態のベクトル量子化予測を用いてモデルを訓練する。
提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることである。
論文 参考訳(メタデータ) (2023-04-05T17:58:33Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Curriculum Learning for Vision-and-Language Navigation [16.695511663714214]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示で室内環境をナビゲートするタスクである。
従来の研究はサンプルの難易度分布を無視しており、エージェントの性能を低下させる可能性があると論じている。
本稿では,人間の事前知識とエージェント学習の進捗をバランスさせる,VLNタスクのためのカリキュラムベースの新しいトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2021-11-14T03:02:07Z) - History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文 参考訳(メタデータ) (2021-10-25T22:54:41Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。