論文の概要: Less is More: Generating Grounded Navigation Instructions from Landmarks
- arxiv url: http://arxiv.org/abs/2111.12872v2
- Date: Mon, 29 Nov 2021 14:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-05 01:36:34.938395
- Title: Less is More: Generating Grounded Navigation Instructions from Landmarks
- Title(参考訳): less is more: ランドマークからグラウンドドナビゲーション命令を生成する
- Authors: Su Wang, Ceslee Montgomery, Jordi Orbay, Vighnesh Birodkar, Aleksandra
Faust, Izzeddin Gur, Natasha Jaques, Austin Waters, Jason Baldridge, Peter
Anderson
- Abstract要約: 屋内ルートで撮影された360度画像からナビゲーション命令の自動生成について検討した。
我々のMARKY-MT5システムは、視覚的ランドマークに焦点を当ててこの問題に対処する。
第1段のランドマーク検出器と第2段のジェネレータ(マルチモーダル、マルチリンガル、エンコーダデコーダ)を備える。
- 参考スコア(独自算出の注目度): 71.60176664576551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the automatic generation of navigation instructions from 360-degree
images captured on indoor routes. Existing generators suffer from poor visual
grounding, causing them to rely on language priors and hallucinate objects. Our
MARKY-MT5 system addresses this by focusing on visual landmarks; it comprises a
first stage landmark detector and a second stage generator -- a multimodal,
multilingual, multitask encoder-decoder. To train it, we bootstrap grounded
landmark annotations on top of the Room-across-Room (RxR) dataset. Using text
parsers, weak supervision from RxR's pose traces, and a multilingual image-text
encoder trained on 1.8b images, we identify 1.1m English, Hindi and Telugu
landmark descriptions and ground them to specific regions in panoramas. On
Room-to-Room, human wayfinders obtain success rates (SR) of 71% following
MARKY-MT5's instructions, just shy of their 75% SR following human instructions
-- and well above SRs with other generators. Evaluations on RxR's longer,
diverse paths obtain 61-64% SRs on three languages. Generating such
high-quality navigation instructions in novel environments is a step towards
conversational navigation tools and could facilitate larger-scale training of
instruction-following agents.
- Abstract(参考訳): 屋内経路で撮影した360度画像からナビゲーション指示の自動生成について検討した。
既存のジェネレータは視覚的な接地が悪く、言語に先立って依存し、オブジェクトを幻覚させる。
我々のMARKY-MT5システムは、視覚的ランドマークに焦点を当ててこの問題に対処し、第1ステージランドマーク検出器と第2ステージジェネレータ - マルチモーダル、マルチ言語、マルチタスクエンコーダ-デコーダ - を備える。
トレーニングのために、Room-across-Room(RxR)データセット上にランドマークアノテーションを根拠にしています。
テキストパーサ,rxrのポーズトレースからの弱い監督,1.8b画像で訓練された多言語画像テキストエンコーダを用いて,英語,ヒンディー語,テルグ語のランドマーク記述1.1mを同定し,パノラマの特定の領域に配置した。
Room-to-Roomでは、MARKY-MT5の指示に従って、人間のウェイファインダーが71%の成功率(SR)を得る。
RxRの長い様々な経路の評価では、3つの言語で61-64%のSRが得られる。
このような高品質なナビゲーション命令を新しい環境で生成することは、対話型ナビゲーションツールへの一歩であり、命令追従エージェントの大規模トレーニングを容易にする。
関連論文リスト
- Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - VLN-Trans: Translator for the Vision and Language Navigation Agent [23.84492755669486]
ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
論文 参考訳(メタデータ) (2023-02-18T04:19:51Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation [30.429893959096752]
ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。
LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。
実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:43:47Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense
Spatiotemporal Grounding [75.03682706791389]
新しいビジョン・アンド・ランゲージ・ナビゲーション(VLN)データセットであるRoom-Across-Room(RxR)を紹介する。
RxRは多言語(英語、ヒンディー語、テルグ語)で、他のVLNデータセットよりも大きい(パスと命令がより多い)。
これはVLNにおける言語の役割を強調し、パスにおける既知のバイアスに対処し、可視化されたエンティティへのより多くの参照を引き出す。
論文 参考訳(メタデータ) (2020-10-15T18:01:15Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。