論文の概要: Latent Space Imaging
- arxiv url: http://arxiv.org/abs/2407.07052v2
- Date: Sun, 23 Mar 2025 12:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:11.299855
- Title: Latent Space Imaging
- Title(参考訳): 潜時空間イメージング
- Authors: Matheus Souza, Yidan Zheng, Kaizhang Kang, Yogeshwar Nath Mishra, Qiang Fu, Wolfgang Heidrich,
- Abstract要約: 人工視覚システムを進化させる新しい手法を提案する。
潜時空間イメージングは、生成モデルの意味的にリッチな潜時空間に直接画像情報を符号化する。
我々は,この原理を,1画素カメラをベースとした初期ハードウェアプロトタイプを用いて検証する。
- 参考スコア(独自算出の注目度): 15.435034286180295
- License:
- Abstract: Digital imaging systems have traditionally relied on brute-force measurement and processing of pixels arranged on regular grids. In contrast, the human visual system performs significant data reduction from the large number of photoreceptors to the optic nerve, effectively encoding visual information into a low-bandwidth latent space representation optimized for brain processing. Inspired by this, we propose a similar approach to advance artificial vision systems. Latent Space Imaging introduces a new paradigm that combines optics and software to encode image information directly into the semantically rich latent space of a generative model. This approach substantially reduces bandwidth and memory demands during image capture and enables a range of downstream tasks focused on the latent space. We validate this principle through an initial hardware prototype based on a single-pixel camera. By implementing an amplitude modulation scheme that encodes into the generative model's latent space, we achieve compression ratios ranging from 1:100 to 1:1000 during imaging, and up to 1:16384 for downstream applications. This approach leverages the model's intrinsic linear boundaries, demonstrating the potential of latent space imaging for highly efficient imaging hardware, adaptable future applications in high-speed imaging, and task-specific cameras with significantly reduced hardware complexity.
- Abstract(参考訳): デジタルイメージングシステムは伝統的に、通常の格子上に配置されたピクセルのブルート力測定と処理に依存してきた。
対照的に、人間の視覚システムは、多数の光受容体から視神経への顕著なデータ還元を行い、脳処理に最適化された低帯域潜在空間表現に視覚情報を効果的に符号化する。
これに触発されて、我々は、人工視覚システムを進化させるための同様のアプローチを提案する。
遅延空間イメージングは、光学とソフトウェアを組み合わせて、画像情報を生成モデルの意味的にリッチな潜在空間に直接エンコードする新しいパラダイムを導入する。
このアプローチは、画像キャプチャ中に帯域幅とメモリ要求を大幅に減らし、潜在空間に焦点をあてた下流タスクを可能にする。
我々は,この原理を,1画素カメラをベースとした初期ハードウェアプロトタイプを用いて検証する。
生成モデルの潜在空間にエンコードする振幅変調方式を実装することにより、画像中の1:100から1:1000までの圧縮比と、下流アプリケーションにおける1:16384までの圧縮比を実現する。
このアプローチは、モデル固有の線形境界を利用し、高効率な撮像ハードウェアのための潜在空間イメージングの可能性、高速撮像における適応可能な将来の応用、ハードウェアの複雑さを著しく低減したタスク固有のカメラを実証する。
関連論文リスト
- Retina-Inspired Object Motion Segmentation for Event-Cameras [0.0]
イベントカメラは、標準的なアクティブなピクセルカメラをはるかに超える高時間解像度の革命的技術として登場した。
本研究は、視覚的特徴を抽出する追加の網膜機能の可能性を示す。
論文 参考訳(メタデータ) (2024-08-18T12:28:26Z) - SaccadeDet: A Novel Dual-Stage Architecture for Rapid and Accurate Detection in Gigapixel Images [50.742420049839474]
SaccadeDetは、人間の目の動きにインスパイアされた、ギガピクセルレベルの物体検出のための革新的なアーキテクチャである。
PANDAデータセットを用いて評価した本手法は,最先端手法の8倍の高速化を実現する。
また、全スライドイメージングへの応用を通じて、ギガピクセルレベルの病理解析に有意な可能性を示す。
論文 参考訳(メタデータ) (2024-07-25T11:22:54Z) - Streaming quanta sensors for online, high-performance imaging and vision [34.098174669870126]
量子画像センサ(QIS)は多くの困難なシナリオにおいて顕著な撮像能力を示した。
その可能性にもかかわらず、これらのセンサーの採用は、(a)高いデータレートと(b)非伝統的な生データを扱うための新しい計算パイプラインの必要性により、著しく妨げられている。
これらの課題に対処するために、単純で低帯域幅の計算パイプラインを導入する。
提案手法は,100倍の帯域幅削減とリアルタイム画像再構成とコンピュータビジョンを実現する。
論文 参考訳(メタデータ) (2024-06-02T20:30:49Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Learned Focused Plenoptic Image Compression with Microimage
Preprocessing and Global Attention [17.05466366805901]
集光レンズカメラは、光フィールド(LF)の空間情報と角情報を同時に記録することができる。
既存のレンズ画像圧縮法は、マイクロレンズリレー画像によって生じる複雑なマイクロテクスチャと、マイクロイメージ間の長距離相関により、キャプチャ画像に非効率であることを示す。
焦点を絞ったレンズ画像の圧縮を効率よく行うために, エンド・ツー・エンドの学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-30T14:24:56Z) - Ultrafast single-channel machine vision based on neuro-inspired photonic
computing [0.0]
ニューロインスパイアされたフォトニックコンピューティングは、超低レイテンシでマシンビジョン処理を高速化するための有望なアプローチである。
本稿では,1つの入力チャネルのみで実世界の視覚情報を光学的に処理する,イメージセンサフリーなマシンビジョンフレームワークを提案する。
提案手法は高速画像認識と異常検出が可能であり,さらに高速撮像にも有効であることを示す。
論文 参考訳(メタデータ) (2023-02-15T10:08:04Z) - Deep Learning for Ultrasound Beamforming [120.12255978513912]
受信した超音波エコーを空間画像領域にマッピングするビームフォーミングは、超音波画像形成チェーンの心臓に位置する。
現代の超音波イメージングは、強力なデジタル受信チャネル処理の革新に大きく依存している。
ディープラーニング手法は、デジタルビームフォーミングパイプラインにおいて魅力的な役割を果たす。
論文 参考訳(メタデータ) (2021-09-23T15:15:21Z) - 10-mega pixel snapshot compressive imaging with a hybrid coded aperture [48.95666098332693]
高解像度画像は私たちの日常生活で広く使われているが、高解像度モードで動作するカメラのフレームレートが低いため、高速ビデオ撮影は困難である。
既存の撮像システムの低スループット化への解決策として、スナップショットイメージング(SCI)が提案された。
論文 参考訳(メタデータ) (2021-06-30T01:09:24Z) - Exploiting Raw Images for Real-Scene Super-Resolution [105.18021110372133]
本稿では,合成データと実撮影画像とのギャップを埋めるために,実シーンにおける単一画像の超解像化の問題について検討する。
本稿では,デジタルカメラの撮像過程を模倣して,よりリアルなトレーニングデータを生成する手法を提案する。
また、原画像に記録された放射情報を活用するために、2分岐畳み込みニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2021-02-02T16:10:15Z) - Memory-efficient Learning for Large-scale Computational Imaging [3.255705667028885]
本稿では,大規模イメージングシステムにおけるデータ駆動設計を実現するために,ネットワークの可逆性を利用したメモリ効率の学習手法を提案する。
提案手法は,小型圧縮センシングの例と,マルチチャネル磁気共鳴イメージングと超高分解能光学顕微鏡の2つの大規模実世界のシステムについて実証する。
論文 参考訳(メタデータ) (2020-03-11T23:08:04Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。