論文の概要: Minimalist Vision with Freeform Pixels
- arxiv url: http://arxiv.org/abs/2501.00142v1
- Date: Mon, 30 Dec 2024 21:27:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 20:43:25.548563
- Title: Minimalist Vision with Freeform Pixels
- Title(参考訳): 自由形レンズを用いたミニマリストビジョン
- Authors: Jeremy Klotz, Shree K. Nayar,
- Abstract要約: 最小限の視覚システムは、視覚課題を解決するのに必要な最小のピクセルを使用する。
ミニマリストカメラのハードウェアはニューラルネットワークの第1層としてモデル化可能であることを示す。
室内空間(8ピクセル)の監視,室内照明(8ピクセル)の計測,交通流推定のための最小限のカメラを設計した。
- 参考スコア(独自算出の注目度): 6.054264814278472
- License:
- Abstract: A minimalist vision system uses the smallest number of pixels needed to solve a vision task. While traditional cameras use a large grid of square pixels, a minimalist camera uses freeform pixels that can take on arbitrary shapes to increase their information content. We show that the hardware of a minimalist camera can be modeled as the first layer of a neural network, where the subsequent layers are used for inference. Training the network for any given task yields the shapes of the camera's freeform pixels, each of which is implemented using a photodetector and an optical mask. We have designed minimalist cameras for monitoring indoor spaces (with 8 pixels), measuring room lighting (with 8 pixels), and estimating traffic flow (with 8 pixels). The performance demonstrated by these systems is on par with a traditional camera with orders of magnitude more pixels. Minimalist vision has two major advantages. First, it naturally tends to preserve the privacy of individuals in the scene since the captured information is inadequate for extracting visual details. Second, since the number of measurements made by a minimalist camera is very small, we show that it can be fully self-powered, i.e., function without an external power supply or a battery.
- Abstract(参考訳): 最小限の視覚システムは、視覚課題を解決するのに必要な最小のピクセルを使用する。
従来のカメラは平方ピクセルの大きなグリッドを使用するが、ミニマリストカメラは任意の形状で情報量を増やすフリーフォームのピクセルを使用する。
最小限のカメラのハードウェアはニューラルネットワークの第1層としてモデル化でき、次の層が推論に使用される。
任意のタスクのためにネットワークをトレーニングすると、カメラのフリーフォームピクセルの形状が得られ、それぞれが光検出器と光学マスクを使用して実装される。
我々は,室内空間(8ピクセル)の監視,室内照明(8ピクセル)の計測,交通流の推定(8ピクセル)のために,最小限のカメラを設計した。
これらのシステムで示される性能は、従来のカメラと同等で、桁違いにピクセル数が多い。
ミニマリストのビジョンには2つの大きな利点がある。
第一に、キャプチャーされた情報は視覚的詳細を抽出するのに不十分であるため、自然に現場の個人のプライバシーを保存する傾向にある。
第二に、最小限のカメラによる測定の数は極めて少ないため、外部電源やバッテリーを使わずに、完全に自力で機能できることが示される。
関連論文リスト
- An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels [65.64402188506644]
バニラ変換器は個々のピクセルをトークンとして扱い、高性能な結果を得られる。
主にコンピュータビジョンにおける3つのよく研究されたタスクにおける画素・アズ・トークンの有効性を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering [91.76893697171117]
そこで本研究では, 高精度かつ高品質な幾何復元と新規なビュー合成手法を提案する。
私たちのキーとなるアイデアは、低解像度のマルチビュービデオからのみ、放射界の重みをメタラーニングすることです。
新しいデータセットWildDynaCap(ワイルドダイナキャップ)は、密集したカメラドームと細いカメラリグの両方に収まる被写体を含んでいる。
論文 参考訳(メタデータ) (2024-03-27T17:59:54Z) - PixelGen: Rethinking Embedded Camera Systems [0.7922558880545526]
組込みカメラシステムを再想像するPixelGenについて紹介する。
具体的には、PixelGenはセンサー、トランシーバー、低解像度の画像と赤外線の視覚センサーを組み合わせて、より広い世界表現を捉えている。
PixelGenの機能は従来の写真を超えて、音波のような従来のカメラには見えない現象の可視化を可能にする。
論文 参考訳(メタデータ) (2024-02-04T14:41:56Z) - Inverting the Imaging Process by Learning an Implicit Camera Model [73.81635386829846]
本稿では,ディープニューラルネットワークとしてのカメラの物理画像処理を表現した,新しい暗黙カメラモデルを提案する。
本稿では,この暗黙カメラモデルが2つの逆撮像タスクに与える影響を実演する。
論文 参考訳(メタデータ) (2023-04-25T11:55:03Z) - NOCaL: Calibration-Free Semi-Supervised Learning of Odometry and Camera
Intrinsics [2.298932494750101]
我々はNOCaL, ニューラル・オドメトリー, および光場を用いて, キャリブレーションなしで未確認カメラを解釈できる半教師付き学習アーキテクチャを提案する。
従来のカメラを用いて,NOCaL合成を実演し,キャリブレーションのないオドメトリーと新しいビュージオメトリを実証した。
論文 参考訳(メタデータ) (2022-10-14T00:34:43Z) - Irrelevant Pixels are Everywhere: Find and Exclude Them for More
Efficient Computer Vision [2.982495984260401]
CNNは、入力画像のすべてのピクセル上の多くの特徴を無差別に計算するため、計算集約的である。
計算とエネルギーを節約するために,CNNを関連するピクセルのみで動作するように修正する。
組込み装置では精度の低下は見られず, 推論遅延, エネルギー消費, 乗算加算数はすべて約45%削減される。
論文 参考訳(メタデータ) (2022-07-21T20:22:15Z) - AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation [51.17610485589701]
本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。
AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
論文 参考訳(メタデータ) (2022-01-20T09:46:20Z) - Interaction-free imaging of multi-pixel objects [58.720142291102135]
量子イメージングは、生物学的組織のような低照度な条件を必要とする敏感なサンプルを研究するのに適している。
この文脈では、相互作用のない測定(IFM)により、試料と相互作用する光子なしで不透明な物体の存在を推測することができる。
ここでは、画素に関する情報を内部自由度に符号化することにより、ICMイメージングスキームを多画素半透明オブジェクトに拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:49:19Z) - Beyond the Camera: Neural Networks in World Coordinates [82.31045377469584]
眼球運動は、動物にシーンの解像度を高め、邪魔な情報を抑制する。
そこで我々は,各層における各機能が空間変換を持ち,機能マップは必要に応じてのみ変換される,シンプルなアイデア WorldFeatures を提案する。
これらのWorldFeaturesで構築されたネットワークは、事前に記録されたビデオのバッチ設定であっても、ササード、固定、スムーズな追跡などの眼球運動をモデル化することができる。
論文 参考訳(メタデータ) (2020-03-12T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。