論文の概要: Footprints and Free Space from a Single Color Image
- arxiv url: http://arxiv.org/abs/2004.06376v1
- Date: Tue, 14 Apr 2020 09:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:50:39.309391
- Title: Footprints and Free Space from a Single Color Image
- Title(参考訳): 単色画像からのフットプリントと自由空間
- Authors: Jamie Watson, Michael Firman, Aron Monszpart, Gabriel J. Brostow
- Abstract要約: 入力として1つのRGB画像が与えられた場合、可視面と隠蔽面の両方の形状を予測するモデルを導入する。
ステレオビデオシーケンスから、カメラポーズ、フレームごとの深さ、セマンティックセグメンテーションを用いて学習し、トレーニングデータを形成する。
トレーニングシーンの空間的カバレッジには驚くほど低いバーが必要であることが分かりました。
- 参考スコア(独自算出の注目度): 32.57664001590537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the shape of a scene from a single color image is a formidable
computer vision task. However, most methods aim to predict the geometry of
surfaces that are visible to the camera, which is of limited use when planning
paths for robots or augmented reality agents. Such agents can only move when
grounded on a traversable surface, which we define as the set of classes which
humans can also walk over, such as grass, footpaths and pavement. Models which
predict beyond the line of sight often parameterize the scene with voxels or
meshes, which can be expensive to use in machine learning frameworks.
We introduce a model to predict the geometry of both visible and occluded
traversable surfaces, given a single RGB image as input. We learn from stereo
video sequences, using camera poses, per-frame depth and semantic segmentation
to form training data, which is used to supervise an image-to-image network. We
train models from the KITTI driving dataset, the indoor Matterport dataset, and
from our own casually captured stereo footage. We find that a surprisingly low
bar for spatial coverage of training scenes is required. We validate our
algorithm against a range of strong baselines, and include an assessment of our
predictions for a path-planning task.
- Abstract(参考訳): 単一のカラー画像からシーンの形状を理解することは、強烈なコンピュータビジョンタスクである。
しかし、ほとんどの手法は、ロボットや拡張現実エージェントの計画経路に限られる、カメラで見える表面の形状を予測することを目的としている。
このようなエージェントは、芝生、歩道、舗装など人間が歩くことができる一連のクラスとして定義されている、移動可能な表面に接地した場合のみ移動することができる。
視線を越えて予測するモデルは、しばしばボクセルやメッシュを使ってシーンをパラメータ化します。
一つのrgb画像を入力として,可視面と可視面の両方の形状を予測するモデルを提案する。
画像対画像ネットワークの監視を行うトレーニングデータを形成するために,カメラポーズ,フレーム単位の深さ,セマンティクスセグメンテーションを用いたステレオビデオシーケンスから学習する。
kittiの運転データセット、屋内マターポートデータセット、そして私たちのカジュアルなステレオ映像からモデルをトレーニングします。
トレーニングシーンの空間的カバレッジに驚くほど低いバーが必要であることが分かりました。
我々は,アルゴリズムを強力なベースラインに対して検証し,経路計画タスクに対する予測の評価を含む。
関連論文リスト
- PathFinder: Attention-Driven Dynamic Non-Line-of-Sight Tracking with a Mobile Robot [3.387892563308912]
注目型ニューラルネットワークを用いてLOS(Line-of-sight)ビデオにおける動的逐次フレームのシーケンスを処理する新しい手法を提案する。
我々は,映像撮影のためのドローンによる現場撮影のアプローチを検証し,ダイナミックキャプチャ環境での低コストなNLOSイメージングを実証した。
論文 参考訳(メタデータ) (2024-04-07T17:31:53Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - D-NeRF: Neural Radiance Fields for Dynamic Scenes [72.75686949608624]
そこで我々は,D-NeRF(D-NeRF)を動的領域に拡張する手法を提案する。
D-NeRFは、周囲を動き回るカメラから、剛体で非剛体な動きの下で物体のイメージを再構成する。
我々は,剛体・調音・非剛体動作下での物体のシーンに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-11-27T19:06:50Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。