論文の概要: Task-Aware Image Signal Processor for Advanced Visual Perception
- arxiv url: http://arxiv.org/abs/2509.13762v1
- Date: Wed, 17 Sep 2025 07:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.757115
- Title: Task-Aware Image Signal Processor for Advanced Visual Perception
- Title(参考訳): 高度な視覚知覚のためのタスク対応画像信号処理装置
- Authors: Kai Chen, Jin Xiao, Leheng Zhang, Kexuan Shi, Shuhang Gu,
- Abstract要約: Task-Aware Image Signal Processing (TA-ISP) はRAW-to-RGBフレームワークであり、事前訓練された視覚モデルのためのタスク指向表現を生成する。
TA-ISPは、パラメータカウントと推論時間を著しく削減しながら、ダウンストリームの精度を一貫して改善する。
リソース制約のあるデバイスへのデプロイに適している。
- 参考スコア(独自算出の注目度): 32.29324101518987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been a growing trend in computer vision towards exploiting RAW sensor data, which preserves richer information compared to conventional low-bit RGB images. Early studies mainly focused on enhancing visual quality, while more recent efforts aim to leverage the abundant information in RAW data to improve the performance of visual perception tasks such as object detection and segmentation. However, existing approaches still face two key limitations: large-scale ISP networks impose heavy computational overhead, while methods based on tuning traditional ISP pipelines are restricted by limited representational capacity.To address these issues, we propose Task-Aware Image Signal Processing (TA-ISP), a compact RAW-to-RGB framework that produces task-oriented representations for pretrained vision models. Instead of heavy dense convolutional pipelines, TA-ISP predicts a small set of lightweight, multi-scale modulation operators that act at global, regional, and pixel scales to reshape image statistics across different spatial extents. This factorized control significantly expands the range of spatially varying transforms that can be represented while keeping memory usage, computation, and latency tightly constrained. Evaluated on several RAW-domain detection and segmentation benchmarks under both daytime and nighttime conditions, TA-ISP consistently improves downstream accuracy while markedly reducing parameter count and inference time, making it well suited for deployment on resource-constrained devices.
- Abstract(参考訳): 近年,従来の低ビットRGB画像に比べてリッチな情報を保存するRAWセンサデータの利用に向けたコンピュータビジョンの傾向が高まっている。
初期の研究は主に視覚的品質の向上に重点を置いていたが、近年の取り組みは、RAWデータの豊富な情報を活用して、物体検出やセグメンテーションなどの視覚的知覚タスクの性能を向上させることを目的としている。
しかし,既存のアプローチでは,大規模ISPネットワークでは計算オーバーヘッドが大きいこと,従来のISPパイプラインをチューニングする手法では表現能力に制限があること,といった2つの大きな制約があり,これらの問題に対処するために,事前訓練された視覚モデルのためのタスク指向表現を生成するRAW-to-RGBフレームワークであるタスク認識画像信号処理(TA-ISP)を提案する。
TA-ISPは、高密度の畳み込みパイプラインの代わりに、グローバル、地域、ピクセルスケールで機能する軽量でマルチスケールな変調演算子セットを予測し、異なる空間範囲で画像統計を再構成する。
この分解制御は、メモリ使用量、計算量、遅延を厳しく制限しながら表現できる空間的に変化する変換の範囲を著しく拡大する。
TA-ISPは、昼と夜の両方の条件下でRAWドメインの検出とセグメンテーションのベンチマークを評価し、パラメータ数と推論時間を著しく削減し、ダウンストリームの精度を一貫して改善し、リソース制約のあるデバイスへの展開に適している。
関連論文リスト
- Beyond RGB: Adaptive Parallel Processing for RAW Object Detection [5.36869872375791]
Raw Adaptation Module (RAM)は、従来の画像信号処理(ISP)を置き換えるために設計されたモジュールである。
提案手法はRGBに基づく手法より優れており,様々なRAW画像データセットにまたがって最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-03-17T13:36:49Z) - LWGANet: A Lightweight Group Attention Backbone for Remote Sensing Visual Tasks [20.924609707499915]
この記事では、RS視覚タスクに適した専用の軽量バックボーンネットワークであるLWGANetを紹介する。
RS画像用に調整されたLWGAモジュールは、冗長な特徴を利用して幅広い空間情報を抽出する。
その結果、LWGANetの広範な適用性と、高性能と低複雑性の最適なバランスを維持する能力が確認された。
論文 参考訳(メタデータ) (2025-01-17T08:56:17Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - Enabling ISP-less Low-Power Computer Vision [4.102254385058941]
汎用的な高レベル視覚タスクのための大規模ベンチマークの生版をリリースする。
ISPなしのCVシステムでは、生画像のトレーニングにより、テスト精度が7.1%向上する。
そこで本研究では,画素内CNN計算と組み合わせた,エネルギー効率のよいアナログインピクセル復号法を提案する。
論文 参考訳(メタデータ) (2022-10-11T13:47:30Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Model-Based Image Signal Processors via Learnable Dictionaries [6.766416093990318]
デジタルカメラは画像信号処理装置(ISP)を用いてRAW読み出しをRGB画像に変換する
近年のアプローチでは、RGBからRAWマッピングを推定することで、このギャップを埋めようとしている。
本稿では,学習可能かつ解釈可能なハイブリッド・モデルベースかつデータ駆動型ISPを提案する。
論文 参考訳(メタデータ) (2022-01-10T08:36:10Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。