論文の概要: Retouchdown: Adding Touchdown to StreetLearn as a Shareable Resource for
Language Grounding Tasks in Street View
- arxiv url: http://arxiv.org/abs/2001.03671v1
- Date: Fri, 10 Jan 2020 21:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 22:38:43.722559
- Title: Retouchdown: Adding Touchdown to StreetLearn as a Shareable Resource for
Language Grounding Tasks in Street View
- Title(参考訳): retouchdown: streetlearnにタッチダウンを追加して、street viewで言語グラウンドタスクを共有する
- Authors: Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski
- Abstract要約: Touchdownデータセットは、人間のアノテータによるニューヨーク市の通りをナビゲーションするための指示を提供する。
幅広い研究コミュニティがTouchdownタスクを効果的に扱えるようにするために、Touchdownに必要な29kのストリートビューパノラマを公開しています。
- 参考スコア(独自算出の注目度): 28.780171397473087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Touchdown dataset (Chen et al., 2019) provides instructions by human
annotators for navigation through New York City streets and for resolving
spatial descriptions at a given location. To enable the wider research
community to work effectively with the Touchdown tasks, we are publicly
releasing the 29k raw Street View panoramas needed for Touchdown. We follow the
process used for the StreetLearn data release (Mirowski et al., 2019) to check
panoramas for personally identifiable information and blur them as necessary.
These have been added to the StreetLearn dataset and can be obtained via the
same process as used previously for StreetLearn. We also provide a reference
implementation for both of the Touchdown tasks: vision and language navigation
(VLN) and spatial description resolution (SDR). We compare our model results to
those given in Chen et al. (2019) and show that the panoramas we have added to
StreetLearn fully support both Touchdown tasks and can be used effectively for
further research and comparison.
- Abstract(参考訳): Touchdownデータセット(Chen et al., 2019)は、ニューヨーク市の通りを通るナビゲーションや、特定の場所での空間的記述の解決のための、人間のアノテーションによる指示を提供する。
幅広い研究コミュニティがTouchdownタスクを効果的に扱えるようにするために、Touchdownに必要な29kのストリートビューパノラマを公開しています。
私たちは、streetlearnデータリリース(mirowski et al., 2019)で使用されたプロセスに従って、個人を特定する情報のためにパノラマをチェックし、必要に応じてぼやけます。
これらはStreetLearnデータセットに追加され、以前StreetLearnで使用したのと同じプロセスで取得できる。
また,視覚と言語ナビゲーション(VLN)と空間記述分解能(SDR)という,タッチダウンタスクの参照実装も提供する。
chen et al.(2019)のモデル結果と比較し、streetlearnに追加したパノラマがタッチダウンタスクの両方を完全にサポートし、さらなる研究と比較に効果的に使用できることを示した。
関連論文リスト
- One-Stage-TFS: Thai One-Stage Fingerspelling Dataset for Fingerspelling Recognition Frameworks [0.0]
タイのワンステージフィンガースペルデータセットは、手ジェスチャー認識の研究を進めるために設計された総合的なリソースである。
このデータセットは、タイのラジャバト・マハ・サラカム大学(英語版)の大学生が行った15の1段子音のジェスチャーを7,200枚の画像から成っている。
論文 参考訳(メタデータ) (2024-11-05T03:26:26Z) - Bird's-Eye View to Street-View: A Survey [16.90516098120805]
衛星画像からストリートビュー画像がどのように合成されるのかを概観するため、20の最近の研究論文をレビューした。
主な発見は, (i) より現実的で正確なストリートビュー画像の合成に新しいディープラーニング技術が必要であること, (ii) 公共利用のためにより多くのデータセットを収集する必要があること, (iii) 生成された画像を適切に評価するためには,より具体的な評価指標を検討する必要があること,である。
論文 参考訳(メタデータ) (2024-05-14T21:01:12Z) - Visualizing Routes with AI-Discovered Street-View Patterns [4.153397474276339]
本稿では,視覚的特徴の定量化にセマンティック潜在ベクトルを用いる手法を提案する。
街路ビュー画像の集合間の画像類似度を計算し,空間像パターンの探索を行う。
インタラクティブな可視化プロトタイプであるVivaRoutesを紹介し、これらのパターンで視覚化がどのように活用され、ユーザーが複数のルートを効果的かつインタラクティブに探索するのに役立つかを示す。
論文 参考訳(メタデータ) (2024-03-30T17:32:26Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - From Visual Prompt Learning to Zero-Shot Transfer: Mapping Is All You
Need [18.42388423333944]
本稿では、事前訓練されたモデルの知識と下流タスクとのセマンティックアライメントを用いたより効果的なマッピングであるSeMapを提案する。
その結果,提案したSeMapは,視覚的即興学習とゼロショット転送の両方において,大きな進歩をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-03-09T13:59:49Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Contrastive Learning of Features between Images and LiDAR [18.211513930388417]
この研究は、クロスモーダルな特徴を密接な対照的な学習問題として扱う。
優れた特徴を学習し、一般性を損なわないために、画像に広く使われているPointNet++アーキテクチャの亜種を開発した。
我々のモデルでは,特徴を可視化することで,画像とLiDARの両方から情報を学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-24T04:35:23Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。