論文の概要: Transformer-based Localization from Embodied Dialog with Large-scale
Pre-training
- arxiv url: http://arxiv.org/abs/2210.04864v1
- Date: Mon, 10 Oct 2022 17:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:02:43.017896
- Title: Transformer-based Localization from Embodied Dialog with Large-scale
Pre-training
- Title(参考訳): 大規模事前学習による体操ダイアログからのトランスフォーマーに基づく局所化
- Authors: Meera Hahn, James M. Rehg
- Abstract要約: 我々は新しいLED-Bertアーキテクチャを開発し、効果的な事前学習戦略を提案する。
グラフに基づくシーン表現は,以前の作業で使用したトップダウン2Dマップよりも効果的であることを示す。
- 参考スコア(独自算出の注目度): 24.867080519723896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenging task of Localization via Embodied Dialog (LED).
Given a dialog from two agents, an Observer navigating through an unknown
environment and a Locator who is attempting to identify the Observer's
location, the goal is to predict the Observer's final location in a map. We
develop a novel LED-Bert architecture and present an effective pretraining
strategy. We show that a graph-based scene representation is more effective
than the top-down 2D maps used in prior works. Our approach outperforms
previous baselines.
- Abstract(参考訳): Embodied Dialog (LED) による局所化の課題に対処する。
未知の環境をナビゲートするオブザーバと、オブザーバの位置を特定しようとするロケータの2つのエージェントからのダイアログが与えられた場合、その目標は、オブザーバの最終位置を地図上で予測することである。
我々は新しいLED-Bertアーキテクチャを開発し、効果的な事前学習戦略を提案する。
グラフに基づくシーン表現は,先行研究で使用されるトップダウン2Dマップよりも効果的であることを示す。
我々のアプローチは以前の基準より優れている。
関連論文リスト
- Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Feudal Networks for Visual Navigation [6.1190419149081245]
封建的学習を用いた視覚ナビゲーションの新しいアプローチを提案する。
各レベルのエージェントはタスクの異なる側面を見て、異なる空間的および時間的スケールで操作する。
得られた封建的なナビゲーションネットワークは、SOTAの性能に近い。
論文 参考訳(メタデータ) (2024-02-19T20:05:41Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Pre-training Contextual Location Embeddings in Personal Trajectories via
Efficient Hierarchical Location Representations [30.493743596793212]
人間の移動データから生成された位置の埋め込みを事前学習することは、位置情報ベースのサービスにとって一般的な方法となっている。
これまでの研究では、1万個未満の異なる場所を処理しており、これは現実世界の応用では不十分である。
本研究では,異なる規模の複数のグリッドの組み合わせとして位置を表現することによって,トレーニング対象の場所数を効率的に削減するGeo-Tokenizerを提案する。
論文 参考訳(メタデータ) (2023-10-02T14:40:24Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - LaneRCNN: Distributed Representations for Graph-Centric Motion
Forecasting [104.8466438967385]
LaneRCNNはグラフ中心のモーション予測モデルです。
アクターごとのローカルレーングラフ表現を学び、過去の動きとローカルマップのトポロジをエンコードします。
我々はレーングラフに基づいて出力軌跡をパラメータ化し,よりアメニブルな予測パラメータ化を行う。
論文 参考訳(メタデータ) (2021-01-17T11:54:49Z) - Where Are You? Localization from Embodied Dialog [83.37951108169307]
本稿では,2人の人間(オブザーバとロケータ)が協調的なローカライゼーションタスクを完了する6kダイアログのデータセットを提案する。
我々の最良のモデルは、見知らぬ建物で3m以内のオブザーバーの位置を32.7%、人間のロケーターでは70.4%で識別することに成功した。
論文 参考訳(メタデータ) (2020-11-16T21:09:43Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation [143.6144560164782]
セマンティックマップを用いた室内ナビゲーションのための学習型アプローチを提案する。
我々は、部屋の位置、大きさ、形状の信念を示すアモーダルな意味的トップダウンマップを生成するためにモデルを訓練する。
次に、これらのマップを使用して、対象の部屋にある点を予測し、その点に向かうためのポリシーを訓練します。
論文 参考訳(メタデータ) (2020-07-20T02:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。