論文の概要: Retouchdown: Adding Touchdown to StreetLearn as a Shareable Resource for
Language Grounding Tasks in Street View
- arxiv url: http://arxiv.org/abs/2001.03671v1
- Date: Fri, 10 Jan 2020 21:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 22:38:43.722559
- Title: Retouchdown: Adding Touchdown to StreetLearn as a Shareable Resource for
Language Grounding Tasks in Street View
- Title(参考訳): retouchdown: streetlearnにタッチダウンを追加して、street viewで言語グラウンドタスクを共有する
- Authors: Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski
- Abstract要約: Touchdownデータセットは、人間のアノテータによるニューヨーク市の通りをナビゲーションするための指示を提供する。
幅広い研究コミュニティがTouchdownタスクを効果的に扱えるようにするために、Touchdownに必要な29kのストリートビューパノラマを公開しています。
- 参考スコア(独自算出の注目度): 28.780171397473087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Touchdown dataset (Chen et al., 2019) provides instructions by human
annotators for navigation through New York City streets and for resolving
spatial descriptions at a given location. To enable the wider research
community to work effectively with the Touchdown tasks, we are publicly
releasing the 29k raw Street View panoramas needed for Touchdown. We follow the
process used for the StreetLearn data release (Mirowski et al., 2019) to check
panoramas for personally identifiable information and blur them as necessary.
These have been added to the StreetLearn dataset and can be obtained via the
same process as used previously for StreetLearn. We also provide a reference
implementation for both of the Touchdown tasks: vision and language navigation
(VLN) and spatial description resolution (SDR). We compare our model results to
those given in Chen et al. (2019) and show that the panoramas we have added to
StreetLearn fully support both Touchdown tasks and can be used effectively for
further research and comparison.
- Abstract(参考訳): Touchdownデータセット(Chen et al., 2019)は、ニューヨーク市の通りを通るナビゲーションや、特定の場所での空間的記述の解決のための、人間のアノテーションによる指示を提供する。
幅広い研究コミュニティがTouchdownタスクを効果的に扱えるようにするために、Touchdownに必要な29kのストリートビューパノラマを公開しています。
私たちは、streetlearnデータリリース(mirowski et al., 2019)で使用されたプロセスに従って、個人を特定する情報のためにパノラマをチェックし、必要に応じてぼやけます。
これらはStreetLearnデータセットに追加され、以前StreetLearnで使用したのと同じプロセスで取得できる。
また,視覚と言語ナビゲーション(VLN)と空間記述分解能(SDR)という,タッチダウンタスクの参照実装も提供する。
chen et al.(2019)のモデル結果と比較し、streetlearnに追加したパノラマがタッチダウンタスクの両方を完全にサポートし、さらなる研究と比較に効果的に使用できることを示した。
関連論文リスト
- VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - ChatGPT as a mapping assistant: A novel method to enrich maps with
generative AI and content derived from street-level photographs [0.0]
ボランティア地理情報(VGI)と大規模言語モデル(LLM)を組み合わせた実験結果について述べる。
GPT-3.5-turbo は OpenStreetMap (OSM) において各道路に最適なタグ付けを提案するよう指示された。
結果は、基礎となるAIモデルを変更することなく、マッピング提案の精度を効果的に向上する2つの方法を示す。
論文 参考訳(メタデータ) (2023-06-05T19:26:21Z) - From Visual Prompt Learning to Zero-Shot Transfer: Mapping Is All You
Need [18.42388423333944]
本稿では、事前訓練されたモデルの知識と下流タスクとのセマンティックアライメントを用いたより効果的なマッピングであるSeMapを提案する。
その結果,提案したSeMapは,視覚的即興学習とゼロショット転送の両方において,大きな進歩をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-03-09T13:59:49Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Contrastive Learning of Features between Images and LiDAR [18.211513930388417]
この研究は、クロスモーダルな特徴を密接な対照的な学習問題として扱う。
優れた特徴を学習し、一般性を損なわないために、画像に広く使われているPointNet++アーキテクチャの亜種を開発した。
我々のモデルでは,特徴を可視化することで,画像とLiDARの両方から情報を学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-24T04:35:23Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Coming Down to Earth: Satellite-to-Street View Synthesis for
Geo-Localization [9.333087475006003]
クロスビュー画像に基づくジオローカライズは,この2つの領域間の視野と外観の違いから,非常に困難である。
衛星入力からリアルなストリートビューを合成することで,この不一致を明示的に解決できることを示す。
本稿では,画像合成と検索を共同で行うマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-11T17:40:59Z) - Where to drive: free space detection with one fisheye camera [1.7499351967216341]
本稿では,Unity3Dに基づく合成学習データの利用を提案する。
仮想魚眼カメラを作成するために5パスのアルゴリズムが使用される。
以上の結果から,合成魚眼画像が深層学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T14:36:45Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。