論文の概要: UniISP: A Unified ISP Framework for Both Human and Machine Vision
- arxiv url: http://arxiv.org/abs/2605.07359v1
- Date: Fri, 08 May 2026 07:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.880385
- Title: UniISP: A Unified ISP Framework for Both Human and Machine Vision
- Title(参考訳): UniISP: 人間と機械の両方のビジョンのための統一ISPフレームワーク
- Authors: Hanxi Li, Yao Cheng, Bo Zhang, Li Zeng,
- Abstract要約: 生センサデータにより、よりリッチな情報表現が提供され、正確な認識に不可欠である。
従来の画像信号処理パイプラインは、一連のステップを通じて人間の知覚のために視覚的にRGB画像を生成する。
生のカメラデータを直接利用するコンピュータビジョンタスクでは、既存のほとんどの手法は最小限のISP処理と下流ネットワークを統合している。
本稿では,人間の視覚認識とコンピュータビジョンアプリケーションの両方の要件を同時に満たすために設計された,新しいISPフレームワークであるUniISPを提案する。
- 参考スコア(独自算出の注目度): 10.279867927108613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared to RGB images, raw sensor data provides a richer representation of information, which is crucial for accurate recognition, particularly under challenging conditions such as low-light environments. The traditional Image Signal Processing (ISP) pipeline generates visually pleasing RGB images for human perception through a series of steps, but some of these operations may adversely impact the information integrity by introducing compression and loss. Furthermore, in computer vision tasks that directly utilize raw camera data, most existing methods integrate minimal ISP processing with downstream networks, yet the resulting images are often difficult to visualize or do not align with human aesthetic preferences. This paper proposes UniISP, a novel ISP framework designed to simultaneously meet the requirements of both human visual perception and computer vision applications. By incorporating a carefully designed Hybrid Attention Module (HAM) and employing supervised learning, the proposed method ensures that the generated images are visually appealing. Additionally, a Feature Adapter module is introduced to effectively propagate informative features from the ISP stage to subsequent downstream networks. Extensive experiments demonstrate that our approach achieves state-of-the-art performance across various scenarios and multiple datasets, proving its generalizability and effectiveness.
- Abstract(参考訳): RGB画像と比較して、生のセンサデータはよりリッチな情報表現を提供しており、特に低照度環境のような困難な条件下では、正確な認識に不可欠である。
従来の画像信号処理(ISP)パイプラインは、人間の知覚に対して視覚的に満足なRGB画像を生成するが、これらの操作のいくつかは、圧縮と損失を導入することで情報の整合性に悪影響を及ぼす可能性がある。
さらに、生のカメラデータを直接利用するコンピュータビジョンタスクでは、既存のほとんどの手法は、最小限のISP処理を下流ネットワークと統合しているが、結果として得られる画像は、人間の美的嗜好と一致しないことが多い。
本稿では,人間の視覚認識とコンピュータビジョンアプリケーションの両方の要件を同時に満たすために設計された,新しいISPフレームワークであるUniISPを提案する。
HAM(Hybrid Attention Module)を慎重に設計し、教師付き学習を採用することにより、生成した画像が視覚的に魅力的であることを保証する。
さらに、ISPステージから下流ネットワークへの情報伝達機能を効果的に伝達するために、Feature Adapterモジュールが導入された。
大規模な実験により,本手法は様々なシナリオや複数のデータセットにまたがって最先端のパフォーマンスを達成し,その一般化性と有効性を示す。
関連論文リスト
- Task-Aware Image Signal Processor for Advanced Visual Perception [32.29324101518987]
Task-Aware Image Signal Processing (TA-ISP) はRAW-to-RGBフレームワークであり、事前訓練された視覚モデルのためのタスク指向表現を生成する。
TA-ISPは、パラメータカウントと推論時間を著しく削減しながら、ダウンストリームの精度を一貫して改善する。
リソース制約のあるデバイスへのデプロイに適している。
論文 参考訳(メタデータ) (2025-09-17T07:16:51Z) - Learned Lightweight Smartphone ISP with Unpaired Data [55.2480439325792]
学習可能な画像信号処理装置(ISP)のための新しいトレーニング手法を提案する。
我々の未経験アプローチは、敵の訓練によって導かれる多段階の損失関数を用いる。
ペア学習法と比較すると,我々の未経験学習戦略は強い可能性を示し,高い忠実性を実現する。
論文 参考訳(メタデータ) (2025-05-15T15:37:51Z) - Towards Realistic Low-Light Image Enhancement via ISP Driven Data Modeling [61.95831392879045]
深部ニューラルネットワーク(DNN)は近年,低照度画像強調(LLIE)の先導手法となっている。
大幅な進歩にもかかわらず、彼らの出力は、増幅ノイズ、誤ったホワイトバランス、または現実世界のアプリケーションに展開する際の不自然な拡張のような問題を示す可能性がある。
重要な課題は、低照度条件と撮像パイプラインの複雑さを捉える多様な大規模トレーニングデータの欠如である。
本稿では,この課題に対処し,無制限にペア化されたトレーニングデータを生成する,新しい画像信号処理(ISP)駆動型データ合成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-04-16T15:53:53Z) - Beyond RGB: Adaptive Parallel Processing for RAW Object Detection [5.36869872375791]
Raw Adaptation Module (RAM)は、従来の画像信号処理(ISP)を置き換えるために設計されたモジュールである。
提案手法はRGBに基づく手法より優れており,様々なRAW画像データセットにまたがって最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-03-17T13:36:49Z) - AdaptiveISP: Learning an Adaptive Image Signal Processor for Object Detection [15.63212587981912]
Image Signal Processors (ISP)は、生のセンサー信号をデジタル画像に変換する。
ISPは画像品質を最大化するために設計されており、これはハイレベルコンピュータビジョンタスクのパフォーマンスに最適である。
本稿では,タスク駆動型かつシーン適応型ISPであるAdaptiveISPを提案する。
論文 参考訳(メタデータ) (2024-10-30T11:49:06Z) - RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images [51.68432586065828]
本稿では,カメラRAWデータへのsRGB事前学習モデルの適用を目的とした新しいアプローチであるRAW-Adapterを紹介する。
Raw-Adapterは、学習可能なISPステージを使用してRAW入力を調整する入力レベルアダプタと、ISPステージとその後の高レベルネットワーク間の接続を構築するモデルレベルアダプタで構成されている。
論文 参考訳(メタデータ) (2024-08-27T06:14:54Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。