論文の概要: VisualEchoes: Spatial Image Representation Learning through Echolocation
- arxiv url: http://arxiv.org/abs/2005.01616v2
- Date: Fri, 17 Jul 2020 17:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:41:45.279830
- Title: VisualEchoes: Spatial Image Representation Learning through Echolocation
- Title(参考訳): VisualEchoes:エコーロケーションによる空間画像表現学習
- Authors: Ruohan Gao, Changan Chen, Ziad Al-Halah, Carl Schissler, Kristen
Grauman
- Abstract要約: いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
- 参考スコア(独自算出の注目度): 97.23789910400387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several animal species (e.g., bats, dolphins, and whales) and even visually
impaired humans have the remarkable ability to perform echolocation: a
biological sonar used to perceive spatial layout and locate objects in the
world. We explore the spatial cues contained in echoes and how they can benefit
vision tasks that require spatial reasoning. First we capture echo responses in
photo-realistic 3D indoor scene environments. Then we propose a novel
interaction-based representation learning framework that learns useful visual
features via echolocation. We show that the learned image features are useful
for multiple downstream vision tasks requiring spatial reasoning---monocular
depth estimation, surface normal estimation, and visual navigation---with
results comparable or even better than heavily supervised pre-training. Our
work opens a new path for representation learning for embodied agents, where
supervision comes from interacting with the physical world.
- Abstract(参考訳): いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害のある人間でさえ、エコーロケーションを行う驚くべき能力を持っている。
我々は、エコーに含まれる空間的手がかりと、空間的推論を必要とする視覚タスクの利点を探求する。
まず,フォトリアリスティックな室内3dシーン環境におけるエコー応答をキャプチャする。
次に,エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
学習した画像特徴は,空間的推論を必要とする複数の下流視覚課題 - 単眼深度推定,表面正規推定,視覚ナビゲーション - に有用であり,教師あり事前学習と同等かそれ以上に優れている。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
関連論文リスト
- Learning 3D object-centric representation through prediction [12.008668555280668]
本研究では,1)離散画像からオブジェクトを抽出し,2)3次元位置を推定し,3)深度を知覚する新しいネットワークアーキテクチャを開発する。
中心となる考え方は、物体を脳が将来のシーンを効率的に予測するために使用する視覚入力の潜在原因として扱うことである。
論文 参考訳(メタデータ) (2024-03-06T14:19:11Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - The Psychophysics of Human Three-Dimensional Active Visuospatial
Problem-Solving [12.805267089186533]
2つの物理的3Dオブジェクトは視覚的に同じか?
人間はこの仕事を訓練なしで非常に得意であり、平均精度は93.82%である。
多くの治験後, 学習効果は認められなかったが, 応答時間, 固定回数, 頭部運動量に何らかの効果が認められた。
論文 参考訳(メタデータ) (2023-06-19T19:36:42Z) - Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文 参考訳(メタデータ) (2021-05-18T18:13:53Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Active Perception and Representation for Robotic Manipulation [0.8315801422499861]
本稿では、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
我々のエージェントは、視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向のアクションを実行する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率がある。
論文 参考訳(メタデータ) (2020-03-15T01:43:51Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。