論文の概要: Learning to Zoom and Unzoom
- arxiv url: http://arxiv.org/abs/2303.15390v1
- Date: Mon, 27 Mar 2023 17:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:18:15.674447
- Title: Learning to Zoom and Unzoom
- Title(参考訳): ズームとアンズームを学ぶ
- Authors: Chittesh Thavamani, Mengtian Li, Francesco Ferroni, Deva Ramanan
- Abstract要約: 入力画像にズームインし、空間的特徴を計算し、次に「アンゾム」して任意の変形を反転させる。
さまざまなタスクやデータセットを評価することで、この汎用性を実証する。
- 参考スコア(独自算出の注目度): 49.587516562644836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many perception systems in mobile computing, autonomous navigation, and AR/VR
face strict compute constraints that are particularly challenging for
high-resolution input images. Previous works propose nonuniform downsamplers
that "learn to zoom" on salient image regions, reducing compute while retaining
task-relevant image information. However, for tasks with spatial labels (such
as 2D/3D object detection and semantic segmentation), such distortions may harm
performance. In this work (LZU), we "learn to zoom" in on the input image,
compute spatial features, and then "unzoom" to revert any deformations. To
enable efficient and differentiable unzooming, we approximate the zooming warp
with a piecewise bilinear mapping that is invertible. LZU can be applied to any
task with 2D spatial input and any model with 2D spatial features, and we
demonstrate this versatility by evaluating on a variety of tasks and datasets:
object detection on Argoverse-HD, semantic segmentation on Cityscapes, and
monocular 3D object detection on nuScenes. Interestingly, we observe boosts in
performance even when high-resolution sensor data is unavailable, implying that
LZU can be used to "learn to upsample" as well.
- Abstract(参考訳): モバイルコンピューティング、自律ナビゲーション、AR/VRにおける多くの知覚システムは、特に高解像度の入力画像では難しい厳格な計算制約に直面している。
以前の研究では、タスク関連画像情報を保持しながら計算を減らし、有能な画像領域で「ズームする」非一様ダウンサンプルを提案する。
しかし、2D/3Dオブジェクト検出やセマンティックセグメンテーションのような空間ラベルを持つタスクの場合、そのような歪みは性能を損なう可能性がある。
本研究(lzu)では,入力画像上で「ズームする」こと,空間的特徴を計算すること,変形を反転させる「アンゾム」について述べる。
効率よく微分可能なアンズーム化を実現するために、ズームするワープを、可逆な片方向の双線形写像で近似する。
Lzuは2次元空間入力を持つタスクや2次元空間特徴を持つモデルに適用可能であり、Argoverse-HD上のオブジェクト検出、Cityscapes上のセマンティックセグメンテーション、nuScenesにおけるモノクロ3次元オブジェクト検出など、様々なタスクやデータセットに基づいて、この汎用性を示す。
興味深いことに,高分解能センサデータが利用できない場合でも,lzuは"サンプルアップ"にも使用できる。
関連論文リスト
- Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Dual-Camera Smooth Zoom on Mobile Phones [55.4114152554769]
我々は、スムーズなズームプレビューを実現するために、新しいタスク、すなわちデュアルカメラスムーズズーム(DCSZ)を導入する。
フレームモデル (FI) 技術は潜在的な解決法であるが、地軸収集に苦慮している。
連続型仮想カメラを組み込んだデータファクトリソリューションを提案し,シーンの再構成された3DモデルをレンダリングしてDCSZデータを生成する。
論文 参考訳(メタデータ) (2024-04-07T10:28:01Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。