論文の概要: Vision without Images: End-to-End Computer Vision from Single Compressive Measurements
- arxiv url: http://arxiv.org/abs/2501.15122v2
- Date: Tue, 05 Aug 2025 18:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:07.810576
- Title: Vision without Images: End-to-End Computer Vision from Single Compressive Measurements
- Title(参考訳): 画像のないビジョン:1回の圧縮測定からコンピュータビジョンをエンド・ツー・エンドに
- Authors: Fengpu Pan, Heting Gao, Jiangtao Wen, Yuxing Han,
- Abstract要約: Snapshot Compressed Imaging (SCI)は、高速、低帯域幅、エネルギー効率の画像取得を提供する。
高解像度センサーにおける実用的なハードウェア制約は、大きなフレームサイズのマスクの使用を制限する。
本稿では,仮想的に実現可能な実装のために,仮想ランダムな2値マスクを8ドル(約8,800円)程度しか持たない,新しいSCIベースのコンピュータビジョンフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.328018344037808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Snapshot Compressed Imaging (SCI) offers high-speed, low-bandwidth, and energy-efficient image acquisition, but remains challenged by low-light and low signal-to-noise ratio (SNR) conditions. Moreover, practical hardware constraints in high-resolution sensors limit the use of large frame-sized masks, necessitating smaller, hardware-friendly designs. In this work, we present a novel SCI-based computer vision framework using pseudo-random binary masks of only 8$\times$8 in size for physically feasible implementations. At its core is CompDAE, a Compressive Denoising Autoencoder built on the STFormer architecture, designed to perform downstream tasks--such as edge detection and depth estimation--directly from noisy compressive raw pixel measurements without image reconstruction. CompDAE incorporates a rate-constrained training strategy inspired by BackSlash to promote compact, compressible models. A shared encoder paired with lightweight task-specific decoders enables a unified multi-task platform. Extensive experiments across multiple datasets demonstrate that CompDAE achieves state-of-the-art performance with significantly lower complexity, especially under ultra-low-light conditions where traditional CMOS and SCI pipelines fail.
- Abstract(参考訳): Snapshot Compressed Imaging (SCI)は、高速、低帯域幅、エネルギー効率の画像取得を提供するが、低照度および低信号-雑音比 (SNR) の条件で課題が残る。
さらに、高解像度センサーにおける実用的なハードウェア制約は、より小型でハードウェアフレンドリーな設計を必要とする大きなフレームサイズのマスクの使用を制限する。
本研究では,仮想的に実現可能な実装のために,擬似ランダムな2値マスクをわずか8$\times$8のサイズのSCIベースのコンピュータビジョンフレームワークを提案する。
コアとなるCompDAEは、STFormerアーキテクチャ上に構築された圧縮Denoising Autoencoderで、エッジ検出や深度推定などの下流タスクを実行するように設計されている。
CompDAEはBackSlashにインスパイアされたレート制約付きトレーニング戦略を導入し、コンパクトで圧縮可能なモデルを推進している。
軽量タスク固有のデコーダと組み合わせた共有エンコーダは、統一されたマルチタスクプラットフォームを実現する。
複数のデータセットにわたる大規模な実験により、CompDAEは、特に従来のCMOSとSCIパイプラインがフェールする超低照度環境で、非常に低い複雑さで最先端のパフォーマンスを達成することが示された。
関連論文リスト
- LoC-LIC: Low Complexity Learned Image Coding Using Hierarchical Feature Transforms [16.428925911432344]
本稿では,階層的特徴抽出変換を用いて,複雑性を大幅に低減する革新的な手法を提案する。
我々の新しいアーキテクチャは、高空間分解能インプット/フィーチャーマップのチャネルを減らし、これを実現する。
結果として、複雑性を低減したモデルは、学習した画像圧縮モデルが様々なデバイスで効率的に動作する方法を開くことができる。
論文 参考訳(メタデータ) (2025-04-30T16:30:06Z) - FD-LSCIC: Frequency Decomposition-based Learned Screen Content Image Compression [67.34466255300339]
本稿では、SC画像圧縮における3つの重要な課題として、コンパクトな潜時特徴の学習、量子化ステップのサイズの適応、大規模なSCデータセットの欠如について述べる。
適応量子化モジュールを導入し、各周波数成分のスケールした均一ノイズを学習し、量子化の粒度を柔軟に制御する。
SDU-SCICD10Kは,基本SC画像,コンピュータレンダリング画像,およびPCおよびモバイルプラットフォームからのNSとSCの混合画像にまたがる1万以上の画像を含む,大規模なSC画像圧縮データセットを構築した。
論文 参考訳(メタデータ) (2025-02-21T03:15:16Z) - Enhanced Confocal Laser Scanning Microscopy with Adaptive Physics Informed Deep Autoencoders [0.0]
共焦点レーザー走査顕微鏡の限界に対処する物理インフォームド・ディープラーニング・フレームワークを提案する。
このモデルは、畳み込み層と転置畳み込み層を用いて、ノイズの多い入力から高忠実度画像を再構成する。
論文 参考訳(メタデータ) (2025-01-24T18:32:34Z) - Rethinking High-speed Image Reconstruction Framework with Spike Camera [48.627095354244204]
スパイクカメラは連続的なスパイクストリームを生成し、従来のRGBカメラよりも低帯域幅でダイナミックレンジの高速シーンをキャプチャする。
従来のトレーニングパラダイムを超える新しいスパイク・ツー・イメージ再構築フレームワークであるSpikeCLIPを導入する。
実世界の低照度データセットに対する実験により、SpikeCLIPはテクスチャの詳細と回復した画像の輝度バランスを大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-01-08T13:00:17Z) - Ultra-Low Complexity On-Orbit Compression for Remote Sensing Imagery via Block Modulated Imaging [17.334800411037836]
本稿では,リモートセンシング画像圧縮における圧縮センシングの研究を前進させる。
BMI(Block Modulated Imaging)は、1回の露光しか必要とせず、画像取得速度を大幅に向上させる。
本稿では,BMIフレームワークで圧縮された画像の再構成に特化して設計された新しい復号化ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-24T13:18:00Z) - A Simple Low-bit Quantization Framework for Video Snapshot Compressive Imaging [15.351152482692383]
Video Snapshot Compressive Imaging (SCI) は、低速2Dカメラを用いて、スナップショット圧縮計測として高速シーンをキャプチャすることを目的としている。
ディープラーニングベースのアルゴリズムは、計算負荷が重いにもかかわらず、目覚ましいパフォーマンスを達成した。
本稿では,エンド・ツー・エンドのディープラーニングに基づくビデオSCI再構成のための低ビット量子化フレームワーク(Q-SCI)を提案する。
論文 参考訳(メタデータ) (2024-07-31T10:38:11Z) - Real-Time Compressed Sensing for Joint Hyperspectral Image Transmission and Restoration for CubeSat [9.981107535103687]
本稿では,軽量で比較的少数のトレーニングサンプルを必要とするリアルタイム圧縮センシングネットワークを提案する。
RTCSネットワークは、必要なトレーニングサンプルを削減し、整数8ベースのエンコーダに簡単に実装できる単純化されたアーキテクチャを備えている。
我々のエンコーダは、ストリップライクなHSIデータ伝送に整数8互換の線形プロジェクションを使用し、リアルタイム圧縮センシングを確実にする。
論文 参考訳(メタデータ) (2024-04-24T10:03:37Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Hybrid Training of Denoising Networks to Improve the Texture Acutance of Digital Cameras [3.400056739248712]
本稿では,自然画像と合成画像の両方に依存した画像復元ニューラルネットワークの混合訓練手法を提案する。
提案手法の有効性は,RGB画像のノイズ化とRAW画像のフル開発の両方において実証され,実際の撮像装置のテクスチャ精度の体系的改善への道のりが開かれた。
論文 参考訳(メタデータ) (2024-02-20T10:47:06Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - LWGNet: Learned Wirtinger Gradients for Fourier Ptychographic Phase
Retrieval [14.588976801396576]
本稿では,フォワードイメージングシステムの知識と深層データ駆動ネットワークを組み合わせたハイブリッドモデル駆動残差ネットワークを提案する。
従来のアンローリング技術とは異なり、LWGNetは従来のディープ・ラーニング・テクニックよりも少ない段数しか使用していない。
この低ビット深度・低コストセンサの性能向上は、FPM撮像装置のコストを大幅に下げる可能性がある。
論文 参考訳(メタデータ) (2022-08-08T17:22:54Z) - Lightweight HDR Camera ISP for Robust Perception in Dynamic Illumination
Conditions via Fourier Adversarial Networks [35.532434169432776]
照明とノイズ除去の逐次的バランスをとる軽量な2段階画像強調アルゴリズムを提案する。
また、異なる照明条件下での一貫した画像強調のためのフーリエスペクトルベース対向フレームワーク(AFNet)を提案する。
また,定量的および定性的な評価に基づいて,画像強調技術が共通認識タスクの性能に与える影響について検討した。
論文 参考訳(メタデータ) (2022-04-04T18:48:51Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Burst Imaging for Light-Constrained Structure-From-Motion [4.125187280299246]
低光環境下で得られた画像から3次元再構成を支援する画像処理技術を開発した。
バースト写真に基づく本手法は,短時間露光画像のバースト内における画像登録に直接的手法を用いる。
本手法は,低光環境下でのロボットの動作を可能にするための重要なステップであり,地中鉱山や夜間作業などの環境におけるロボットの動作に応用できる可能性がある。
論文 参考訳(メタデータ) (2021-08-23T02:12:40Z) - 10-mega pixel snapshot compressive imaging with a hybrid coded aperture [48.95666098332693]
高解像度画像は私たちの日常生活で広く使われているが、高解像度モードで動作するカメラのフレームレートが低いため、高速ビデオ撮影は困難である。
既存の撮像システムの低スループット化への解決策として、スナップショットイメージング(SCI)が提案された。
論文 参考訳(メタデータ) (2021-06-30T01:09:24Z) - Time-Multiplexed Coded Aperture Imaging: Learned Coded Aperture and
Pixel Exposures for Compressive Imaging Systems [56.154190098338965]
提案した時間多重符号化開口(TMCA)をエンドツーエンドで最適化できることを示した。
tmcaは圧縮光野イメージングとハイパースペクトルイメージングの2つの異なる応用において、より良いコード化されたスナップショットを誘導する。
この凝固法は、最先端の圧縮画像システムよりも4dB以上性能が高い。
論文 参考訳(メタデータ) (2021-04-06T22:42:34Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。