論文の概要: Geometry-Informed Distance Candidate Selection for Adaptive Lightweight Omnidirectional Stereo Vision with Fisheye Images
- arxiv url: http://arxiv.org/abs/2405.05355v1
- Date: Wed, 8 May 2024 18:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:52:18.627778
- Title: Geometry-Informed Distance Candidate Selection for Adaptive Lightweight Omnidirectional Stereo Vision with Fisheye Images
- Title(参考訳): 魚眼画像を用いた適応型軽量全方位ステレオビジョンのための幾何学的インフォームド距離候補選択法
- Authors: Conner Pulling, Je Hon Tan, Yaoyu Hu, Sebastian Scherer,
- Abstract要約: 多視点ステレオ全方位距離推定は通常、多くの仮説的距離候補を持つコストボリュームを構築する必要がある。
そこで本研究では,ごく少数の候補を利用でき,計算コストを低減できる距離候補選択法を提案する。
- 参考スコア(独自算出の注目度): 2.024925013349319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view stereo omnidirectional distance estimation usually needs to build a cost volume with many hypothetical distance candidates. The cost volume building process is often computationally heavy considering the limited resources a mobile robot has. We propose a new geometry-informed way of distance candidates selection method which enables the use of a very small number of candidates and reduces the computational cost. We demonstrate the use of the geometry-informed candidates in a set of model variants. We find that by adjusting the candidates during robot deployment, our geometry-informed distance candidates also improve a pre-trained model's accuracy if the extrinsics or the number of cameras changes. Without any re-training or fine-tuning, our models outperform models trained with evenly distributed distance candidates. Models are also released as hardware-accelerated versions with a new dedicated large-scale dataset. The project page, code, and dataset can be found at https://theairlab.org/gicandidates/ .
- Abstract(参考訳): 多視点ステレオ全方位距離推定は通常、多くの仮説的距離候補を持つコストボリュームを構築する必要がある。
移動ロボットが持つ限られた資源を考えると、コストボリューム構築プロセスは計算的に重いことが多い。
そこで本研究では,ごく少数の候補を利用でき,計算コストを低減できる距離候補選択法を提案する。
モデル変種集合における幾何インフォームド候補の利用を実演する。
ロボット展開中に候補を調整することにより,外在物やカメラの数が変化した場合,ジオメトリインフォームされた距離候補が事前訓練されたモデルの精度を向上させることも確認できた。
再トレーニングや微調整がなければ、我々のモデルは均等に分散した距離候補で訓練されたモデルより優れている。
モデルはハードウェアアクセラレーションバージョンとしてリリースされ、新しい専用大規模データセットが提供される。
プロジェクトページ、コード、データセットはhttps://theairlab.org/gicandidates/ で見ることができる。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Neural Potential Field for Obstacle-Aware Local Motion Planning [46.42871544295734]
本稿では,ロボットのポーズ,障害物マップ,ロボットのフットプリントに基づいて,異なる衝突コストを返却するニューラルネットワークモデルを提案する。
私たちのアーキテクチャには、障害物マップとロボットフットプリントを埋め込みに変換するニューラルイメージエンコーダが含まれています。
Husky UGVモバイルロボットの実験は、我々のアプローチがリアルタイムで安全なローカルプランニングを可能にすることを示した。
論文 参考訳(メタデータ) (2023-10-25T05:00:21Z) - MEM: Multi-Modal Elevation Mapping for Robotics and Learning [10.476978089902818]
我々は、複数の情報源からのマルチモーダル情報を一般的な地図表現に融合させることにより、2.5Dロボット中心の標高マッピングフレームワークを拡張した。
我々のシステムはGPU上で動くように設計されており、様々なロボットや学習タスクをリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-09-28T19:55:29Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - One Training for Multiple Deployments: Polar-based Adaptive BEV
Perception for Autonomous Driving [17.28727648742317]
現在の視覚中心の3次元知覚アプローチは、固定解像度の正規格子表現特徴写像を用いて訓練されている。
本稿では,画像からBEV特徴マップを構築する場合のPolar表現を利用して,複数配置で一度トレーニングを行うという目標を達成する。
大規模自律運転データセットの実験により、我々の手法は、複数のデプロイメントのための1つのトレーニングの優れた特性として、他の人よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-02T12:37:28Z) - Multiview Detection with Cardboard Human Modeling [23.072791405965415]
本研究では,人点雲モデリングに基づく新しい歩行者表現方式を提案する。
具体的には、人体深度推定のためのレイトレーシングを用いて、歩行者を地上の直立した薄い段ボールの点雲としてモデル化する。
論文 参考訳(メタデータ) (2022-07-05T12:47:26Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - Hyperbolic Vision Transformers: Combining Improvements in Metric
Learning [116.13290702262248]
計量学習のための新しい双曲型モデルを提案する。
本手法のコアとなるのは、双曲空間にマッピングされた出力埋め込みを備えた視覚変換器である。
4つのデータセットに6つの異なる定式化を施したモデルの評価を行った。
論文 参考訳(メタデータ) (2022-03-21T09:48:23Z) - AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation [51.17610485589701]
本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。
AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
論文 参考訳(メタデータ) (2022-01-20T09:46:20Z) - Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming
E2E ASR via Supernet [24.62661549442265]
我々は,Omni-sparsity DNNを提案する。そこでは,1つのニューラルネットワークを切断して,広範囲のモデルサイズに対して最適化されたモデルを生成する。
以上の結果から,LibriSpeechのトレーニング時間とリソースの保存時間は,個別のプルーニングモデルと比較すると,類似あるいは精度がよいことがわかった。
論文 参考訳(メタデータ) (2021-10-15T20:28:27Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。