論文の概要: Automated mapping of virtual environments with visual predictive coding
- arxiv url: http://arxiv.org/abs/2308.10913v2
- Date: Wed, 17 Apr 2024 23:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 14:29:13.945702
- Title: Automated mapping of virtual environments with visual predictive coding
- Title(参考訳): 視覚的予測符号化による仮想環境の自動マッピング
- Authors: James Gornet, Matthew Thomson,
- Abstract要約: 本稿では,エージェントが視覚的予測コーディングをしながら仮想環境をナビゲートするフレームワークを提案する。
次の画像予測タスクを学習しながら、エージェントは、距離を定量的に反映する環境の内部表現を自動的に構築する。
内部マップにより、エージェントは視覚情報のみを使用してランドマークに対して位置を特定できる。
- 参考スコア(独自算出の注目度): 0.9591674293850556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans construct internal cognitive maps of their environment directly from sensory inputs without access to a system of explicit coordinates or distance measurements. While machine learning algorithms like SLAM utilize specialized visual inference procedures to identify visual features and construct spatial maps from visual and odometry data, the general nature of cognitive maps in the brain suggests a unified mapping algorithmic strategy that can generalize to auditory, tactile, and linguistic inputs. Here, we demonstrate that predictive coding provides a natural and versatile neural network algorithm for constructing spatial maps using sensory data. We introduce a framework in which an agent navigates a virtual environment while engaging in visual predictive coding using a self-attention-equipped convolutional neural network. While learning a next image prediction task, the agent automatically constructs an internal representation of the environment that quantitatively reflects distances. The internal map enables the agent to pinpoint its location relative to landmarks using only visual information.The predictive coding network generates a vectorized encoding of the environment that supports vector navigation where individual latent space units delineate localized, overlapping neighborhoods in the environment. Broadly, our work introduces predictive coding as a unified algorithmic framework for constructing cognitive maps that can naturally extend to the mapping of auditory, sensorimotor, and linguistic inputs.
- Abstract(参考訳): 人間は、明示的な座標や距離測定のシステムにアクセスすることなく、感覚入力から直接環境の認識マップを構築する。
SLAMのような機械学習アルゴリズムは、視覚的特徴を識別し空間マップを構築するために特殊な視覚的推論手法を使用しているが、脳内の認知マップの一般的な性質は、聴覚、触覚、言語入力に一般化可能な統合マッピングアルゴリズム戦略を提案する。
ここでは、予測符号化が知覚データを用いて空間マップを構築するための自然で汎用的なニューラルネットワークアルゴリズムを提供することを示す。
本稿では,自律型畳み込みニューラルネットワークを用いて視覚的予測コーディングを行いながら,エージェントが仮想環境をナビゲートするフレームワークを提案する。
次の画像予測タスクを学習しながら、エージェントは、距離を定量的に反映する環境の内部表現を自動的に構築する。
この内部マップにより、エージェントは視覚情報のみを用いてランドマークに対して位置を特定でき、この予測符号化ネットワークは、各潜在空間ユニットが環境内の局所的に重なり合う近傍をデライン化するベクトルナビゲーションをサポートする環境のベクトル化符号化を生成する。
本研究は,聴覚,知覚,言語入力のマッピングに自然に拡張可能な認知マップを構築するための,一貫したアルゴリズムの枠組みとして,予測符号化を導入する。
関連論文リスト
- Exploring Emerging Trends and Research Opportunities in Visual Place Recognition [28.76562316749074]
視覚に基づく認識は、コンピュータビジョンとロボティクスのコミュニティにおける長年の課題である。
ほとんどのローカライズ実装では、視覚的位置認識が不可欠である。
研究者は最近、視覚言語モデルに注意を向けている。
論文 参考訳(メタデータ) (2024-11-18T11:36:17Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Finding Concept Representations in Neural Networks with Self-Organizing
Maps [2.817412580574242]
ニューラルネットワークの層活性化が抽象概念の神経表現にどのように対応するかを調べるために,自己組織化マップをどのように利用できるかを示す。
実験の結果, 概念の活性化マップの相対エントロピーは適切な候補であり, 概念の神経表現を同定し, 特定するための方法論として利用できることがわかった。
論文 参考訳(メタデータ) (2023-12-10T12:10:34Z) - Active Neural Mapping [20.242598287146578]
本稿では,連続学習型ニューラルシーン表現,すなわちアクティブニューラルマッピングによるアクティブマッピングの問題に対処する。
オンラインシーン再構築のための座標に基づく暗黙的ニューラル表現を用いたアクティブマッピングシステムについて初めて紹介する。
論文 参考訳(メタデータ) (2023-08-30T18:07:30Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Multi-Object Navigation with dynamically learned neural implicit
representations [10.182418917501064]
本稿では,各エピソードにおいて動的に学習される2つのニューラル暗示表現を用いてニューラルネットワークを構築することを提案する。
マルチオブジェクトナビゲーションにおけるエージェントの評価を行い、暗黙的表現をメモリソースとして使用する場合の影響を高く示す。
論文 参考訳(メタデータ) (2022-10-11T04:06:34Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Neural Network based Successor Representations of Space and Language [6.748976209131109]
本稿では,構造化知識のマルチスケールの後継表現をニューラルネットワークで学習する手法を提案する。
すべてのシナリオにおいて、ニューラルネットワークは、後続表現を構築することによって基盤構造を正しく学習し、近似する。
我々は、認知地図とニューラルネットワークに基づく構造化知識の継承表現が、人工知能への深層学習の短さを克服する有望な方法を提供すると結論付けた。
論文 参考訳(メタデータ) (2022-02-22T21:52:46Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。