論文の概要: DeepSocNav: Social Navigation by Imitating Human Behaviors
- arxiv url: http://arxiv.org/abs/2107.09170v1
- Date: Mon, 19 Jul 2021 21:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 22:58:04.730678
- Title: DeepSocNav: Social Navigation by Imitating Human Behaviors
- Title(参考訳): DeepSocNav: 人間の行動を模倣するソーシャルナビゲーション
- Authors: Juan Pablo de Vicente, Alvaro Soto
- Abstract要約: 社会行動を訓練する現在のデータセットは、通常、鳥の目から見た視覚データをキャプチャする監視アプリケーションから借用される。
本稿では,既存の鳥眼ビューデータセットを1対1の視点に変換するために,Unityのような現在のゲームエンジンのパワーを利用する戦略を提案する。
提案手法を利用して合成データを生成する深層学習モデルであるDeepSocNavを提案する。
- 参考スコア(独自算出の注目度): 4.481752830874854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current datasets to train social behaviors are usually borrowed from
surveillance applications that capture visual data from a bird's-eye
perspective. This leaves aside precious relationships and visual cues that
could be captured through a first-person view of a scene. In this work, we
propose a strategy to exploit the power of current game engines, such as Unity,
to transform pre-existing bird's-eye view datasets into a first-person view, in
particular, a depth view. Using this strategy, we are able to generate large
volumes of synthetic data that can be used to pre-train a social navigation
model. To test our ideas, we present DeepSocNav, a deep learning based model
that takes advantage of the proposed approach to generate synthetic data.
Furthermore, DeepSocNav includes a self-supervised strategy that is included as
an auxiliary task. This consists of predicting the next depth frame that the
agent will face. Our experiments show the benefits of the proposed model that
is able to outperform relevant baselines in terms of social navigation scores.
- Abstract(参考訳): 社会行動を訓練する現在のデータセットは、通常、鳥の目から見た視覚データをキャプチャする監視アプリケーションから借用される。
このことは、シーンの1対1の視点で捉えられる貴重な関係や視覚的な手がかりを残している。
本研究では,既存の鳥眼ビューデータセットを1対1の視点,特に深度ビューに変換するために,Unityなどの現在のゲームエンジンのパワーを活用する戦略を提案する。
この戦略を用いることで、ソーシャルナビゲーションモデルの事前学習に使用できる大量の合成データを生成することができる。
提案する手法を利用して合成データを生成する深層学習モデルであるDeepSocNavを提案する。
さらに、deepsocnavは補助タスクとして含まれる自己監督戦略を含んでいる。
これはエージェントが直面する次の深度フレームを予測することから成り立っている。
本実験は,ソーシャルナビゲーションスコアの点において,関連するベースラインを上回り得るモデルの有効性を示す。
関連論文リスト
- From Cognition to Precognition: A Future-Aware Framework for Social Navigation [1.9094009409000596]
本稿では,社会的に認識されたナビゲーションに取り組むための強化学習アーキテクチャであるFalconを提案する。
我々はSocial-HM3DとSocial-MP3Dという2つの新しいデータセットを含むSocialNavベンチマークを導入する。
我々は、最先端の学習法と古典的なルールベースの経路計画アルゴリズムを用いて、詳細な実験分析を行う。
論文 参考訳(メタデータ) (2024-09-20T06:08:24Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Learning to Predict Navigational Patterns from Partial Observations [63.04492958425066]
本稿では,実環境におけるナビゲーションのパターンを,部分的な観察のみから推測する,初めての自己教師型学習(SSL)手法を提案する。
我々は、DSLPフィールドに最大極大グラフを適合させることにより、グローバルなナビゲーションパターンを推論する方法を実証する。
実験により,我々のSSLモデルはnuScenesデータセット上で2つのSOTA教師付きレーングラフ予測モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-04-26T02:08:46Z) - Visual Pre-training for Navigation: What Can We Learn from Noise? [16.203790885059373]
目標に対応する現在のビューの作物の位置と大きさを予測することで,ナビゲーションポリシーが学習可能であることを示す。
また,このようなランダムな作物予測を,自然の家庭画像によく適応する合成ノイズ画像に基づいて,自己教師方式で訓練することも示す。
学習した表現はブートストラップでナビゲーションポリシーを学習する。
論文 参考訳(メタデータ) (2022-06-30T18:35:00Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。