論文の概要: Transferring ConvNet Features from Passive to Active Robot
Self-Localization: The Use of Ego-Centric and World-Centric Views
- arxiv url: http://arxiv.org/abs/2204.10497v1
- Date: Fri, 22 Apr 2022 04:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:23:30.163065
- Title: Transferring ConvNet Features from Passive to Active Robot
Self-Localization: The Use of Ego-Centric and World-Centric Views
- Title(参考訳): 受動型からアクティブ型ロボットの自己ローカライゼーションへのコンブネット機能導入--自我中心と世界中心の視点を用いて
- Authors: Kanya Kurauchi, Kanji Tanaka, Ryogo Yamamoto, and Mitsuki Yoshida
- Abstract要約: 標準VPRサブシステムは利用可能であると仮定され、ドメイン不変な状態認識能力はドメイン不変なNBVプランナーを訓練するために転送される。
我々は,CNNモデルから利用可能な視覚的手がかりを,出力層キュー(OLC)と中間層キュー(ILC)の2つのタイプに分割する。
本フレームワークでは,ICCとOLCを状態ベクトルにマッピングし,深層強化学習による多視点NBVプランナの訓練に使用する。
- 参考スコア(独自算出の注目度): 2.362412515574206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of a next-best-view (NBV) planner for visual place recognition
(VPR) is a fundamentally important task in autonomous robot navigation, for
which a typical approach is the use of visual experiences that are collected in
the target domain as training data. However, the collection of a wide variety
of visual experiences in everyday navigation is costly and prohibitive for
real-time robotic applications. We address this issue by employing a novel {\it
domain-invariant} NBV planner. A standard VPR subsystem based on a
convolutional neural network (CNN) is assumed to be available, and its
domain-invariant state recognition ability is proposed to be transferred to
train the domain-invariant NBV planner. Specifically, we divide the visual cues
that are available from the CNN model into two types: the output layer cue
(OLC) and intermediate layer cue (ILC). The OLC is available at the output
layer of the CNN model and aims to estimate the state of the robot (e.g., the
robot viewpoint) with respect to the world-centric view coordinate system. The
ILC is available within the middle layers of the CNN model as a high-level
description of the visual content (e.g., a saliency image) with respect to the
ego-centric view. In our framework, the ILC and OLC are mapped to a state
vector and subsequently used to train a multiview NBV planner via deep
reinforcement learning. Experiments using the public NCLT dataset validate the
effectiveness of the proposed method.
- Abstract(参考訳): next-best-view(nbv) planner for visual place recognition(vpr)のトレーニングは、自律型ロボットナビゲーションにおいて、目標領域で収集された視覚体験をトレーニングデータとして使用するという、基本的に重要なタスクである。
しかし、日常ナビゲーションにおける様々な視覚的体験の収集は、リアルタイムロボットアプリケーションには費用がかかり、禁じられている。
我々は、新しい {\it domain-invariant} nbv plannerを用いてこの問題に対処する。
畳み込みニューラルネットワーク(CNN)に基づく標準VPRサブシステムは利用可能であり、ドメイン不変な状態認識能力はドメイン不変なNBVプランナーを訓練するために転送される。
具体的には,CNNモデルから利用可能な視覚的手がかりを,出力層cue (OLC) と中間層cue (ILC) の2つのタイプに分割する。
OLCは、CNNモデルの出力層で利用可能であり、世界中心のビュー座標系に関してロボットの状態(例えば、ロボット視点)を推定することを目的としている。
ILCは、CNNモデルの中間層内で、エゴ中心の視点に関する視覚的内容(例えば、唾液画像)の高レベルな記述として利用可能である。
本フレームワークでは,ICCとOLCを状態ベクトルにマッピングし,深層強化学習による多視点NBVプランナの訓練に使用する。
NCLTデータセットを用いて提案手法の有効性を検証する。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - ViNT: A Foundation Model for Visual Navigation [52.2571739391896]
Visual Navigation Transformer (ViNT) は視覚に基づくロボットナビゲーションの基礎モデルである。
ViNTは、任意のナビゲーションデータセットで使用可能な、汎用的な目標達成目標でトレーニングされている。
特定のデータセットでトレーニングされたスペシャリストモデルよりも優れた、肯定的な転送を示す。
論文 参考訳(メタデータ) (2023-06-26T16:57:03Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z) - Scalable Perception-Action-Communication Loops with Convolutional and
Graph Neural Networks [208.15591625749272]
視覚に基づくグラフアグリゲーション・アンド・推論(VGAI)を用いた知覚-行動-コミュニケーションループの設計を提案する。
我々のフレームワークは、畳み込みとグラフニューラルネットワーク(CNN/GNN)のカスケードによって実装され、エージェントレベルの視覚知覚と特徴学習に対処する。
我々は、VGAIが他の分散コントローラに匹敵する性能を得ることを示した。
論文 参考訳(メタデータ) (2021-06-24T23:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。