論文の概要: Differentiable Sensor Layouts for End-to-End Learning of Task-Specific
Camera Parameters
- arxiv url: http://arxiv.org/abs/2304.14736v1
- Date: Fri, 28 Apr 2023 10:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 14:36:20.320994
- Title: Differentiable Sensor Layouts for End-to-End Learning of Task-Specific
Camera Parameters
- Title(参考訳): タスク特異的カメラパラメータのエンドツーエンド学習のための微分センサレイアウト
- Authors: Hendrik Sommerhoff, Shashank Agnihotri, Mohamed Saleh, Michael
Moeller, Margret Keuper, Andreas Kolb
- Abstract要約: 特定のタスクにおいて、与えられたニューラルネットワークのパラメータと協調して撮像センサ上の画素のサイズと分布を最適化する、真にエンドツーエンドなイメージングパイプラインを提示する。
センサレイアウトパラメータ化のための分析可能なアプローチを導出し、タスク固有の局所的な画素解像度を実現する。
ネットワーク予測は,2つの下流タスク,分類とセマンティックセグメンテーションにおいて,学習可能なピクセルレイアウトの恩恵を受けることを示す。
- 参考スコア(独自算出の注目度): 14.066037259533255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of deep learning is frequently described as the ability to train
all parameters of a network on a specific application in an end-to-end fashion.
Yet, several design choices on the camera level, including the pixel layout of
the sensor, are considered as pre-defined and fixed, and high resolution,
regular pixel layouts are considered to be the most generic ones in computer
vision and graphics, treating all regions of an image as equally important.
While several works have considered non-uniform, \eg, hexagonal or foveated,
pixel layouts in hardware and image processing, the layout has not been
integrated into the end-to-end learning paradigm so far. In this work, we
present the first truly end-to-end trained imaging pipeline that optimizes the
size and distribution of pixels on the imaging sensor jointly with the
parameters of a given neural network on a specific task. We derive an analytic,
differentiable approach for the sensor layout parameterization that allows for
task-specific, local varying pixel resolutions. We present two pixel layout
parameterization functions: rectangular and curvilinear grid shapes that retain
a regular topology. We provide a drop-in module that approximates sensor
simulation given existing high-resolution images to directly connect our method
with existing deep learning models. We show that network predictions benefit
from learnable pixel layouts for two different downstream tasks, classification
and semantic segmentation.
- Abstract(参考訳): ディープラーニングの成功は、エンド・ツー・エンドの方法で特定のアプリケーション上でネットワークの全パラメータをトレーニングする能力としてしばしば説明される。
しかし、センサーのピクセルレイアウトを含むカメラレベルでのいくつかの設計選択は、事前に定義され固定され、高解像度では、通常のピクセルレイアウトはコンピュータビジョンとグラフィックスにおいて最も一般的なものと考えられ、画像のすべての領域を同様に重要視している。
ハードウェアや画像処理における非一様, ヘキサゴナル, フェーベレート, ピクセルレイアウトなどを検討した作品もあるが, これまでのところ, エンド・ツー・エンドの学習パラダイムには組み込まれていない。
本研究では,特定のタスクにおけるニューラルネットワークのパラメータと協調して,画像センサ上の画素のサイズと分布を最適化する,真にエンドツーエンドな画像処理パイプラインを提案する。
センサレイアウトパラメータ化のための分析可能なアプローチを導出し、タスク固有の局所的な画素解像度を実現する。
正則位相を保持する矩形および曲線格子形状の2つの画素配置パラメータ化関数を提案する。
既存の高解像度画像からセンサシミュレーションを近似し,本手法を既存のディープラーニングモデルと直接接続するドロップインモジュールを提案する。
ネットワーク予測は2つの異なる下流タスク、分類とセマンティクスセグメンテーションにおいて学習可能なピクセルレイアウトの恩恵を受けることを示す。
関連論文リスト
- Deep Spherical Superpixels [1.104960878651584]
DSS(Deep Spherical Superpixels)と呼ばれる全方位画像に適した,ディープラーニングに基づく最初のスーパーピクセルセグメンテーション手法を提案する。
提案手法は球面CNNアーキテクチャとスーパーピクセルのK平均クラスタリングパラダイムを利用して,球面形状に従うスーパーピクセルを生成する。
論文 参考訳(メタデータ) (2024-07-24T15:27:21Z) - Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Parameter Efficient Local Implicit Image Function Network for Face
Segmentation [13.124513975412254]
顔解析は、人間の顔を含む画像のピクセルごとのラベル付けとして定義される。
我々は人間の顔の構造的整合性を利用して、軽量な顔解析法を提案する。
論文 参考訳(メタデータ) (2023-03-27T11:50:27Z) - Pixel Relationships-based Regularizer for Retinal Vessel Image
Segmentation [4.3251090426112695]
本研究は, 正則化器を用いて, 学習プロセスに画素近傍の関係情報を付与する。
実験により,提案手法は画素近傍関係の捕捉に成功し,畳み込みニューラルネットワークの性能向上を図っている。
論文 参考訳(メタデータ) (2022-12-28T07:35:20Z) - Probabilistic Deep Metric Learning for Hyperspectral Image
Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。
ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。
我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文 参考訳(メタデータ) (2022-11-15T17:57:12Z) - Single Image Super-Resolution via a Dual Interactive Implicit Neural
Network [5.331665215168209]
本稿では,任意のスケール因子における単一画像の超解像処理のための新しい暗黙的ニューラルネットワークを提案する。
公開されているベンチマークデータセット上で、最先端技術に対するアプローチの有効性と柔軟性を実証する。
論文 参考訳(メタデータ) (2022-10-23T02:05:19Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z) - Every Pixel Matters: Center-aware Feature Alignment for Domain Adaptive
Object Detector [95.51517606475376]
ドメイン適応オブジェクト検出器は、オブジェクトの外観、視点、背景のバリエーションを含む可能性のある、見えないドメインに適応することを目的としている。
本稿では,画素単位の目的性と中心性を予測することにより,各画素を考慮に入れたドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T17:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。