論文の概要: Learning to Sense for Driving: Joint Optics-Sensor-Model Co-Design for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2512.20815v2
- Date: Thu, 25 Dec 2025 20:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.829522
- Title: Learning to Sense for Driving: Joint Optics-Sensor-Model Co-Design for Semantic Segmentation
- Title(参考訳): 運転感覚の学習:セマンティックセグメンテーションのためのジョイント光学-センサモデル共設計
- Authors: Reeshad Khan, John Gauch,
- Abstract要約: 従来の自律走行パイプラインは、下流の認識からカメラ設計を分離する。
本稿では,光学,センサモデリング,軽量セマンティックセグメンテーションネットワークを統合したタスク駆動型協調設計フレームワークを提案する。
提案システムは,現実的な携帯電話スケールレンズモデル,学習可能なカラーフィルタアレイ,ポアソン・ガウス雑音処理,量子化処理を統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional autonomous driving pipelines decouple camera design from downstream perception, relying on fixed optics and handcrafted ISPs that prioritize human viewable imagery rather than machine semantics. This separation discards information during demosaicing, denoising, or quantization, while forcing models to adapt to sensor artifacts. We present a task-driven co-design framework that unifies optics, sensor modeling, and lightweight semantic segmentation networks into a single end-to-end RAW-to-task pipeline. Building on DeepLens[19], our system integrates realistic cellphone-scale lens models, learnable color filter arrays, Poisson-Gaussian noise processes, and quantization, all optimized directly for segmentation objectives. Evaluations on KITTI-360 show consistent mIoU improvements over fixed pipelines, with optics modeling and CFA learning providing the largest gains, especially for thin or low-light-sensitive classes. Importantly, these robustness gains are achieved with a compact ~1M-parameter model running at ~28 FPS, demonstrating edge deployability. Visual and quantitative analyses further highlight how co-designed sensors adapt acquisition to semantic structure, sharpening boundaries and maintaining accuracy under blur, noise, and low bit-depth. Together, these findings establish full-stack co-optimization of optics, sensors, and networks as a principled path toward efficient, reliable, and deployable perception in autonomous systems.
- Abstract(参考訳): 従来の自律走行パイプラインは、カメラ設計を下流の認識から切り離し、固定光学と機械のセマンティクスよりも人間の視界を優先する手作りのISPに依存している。
この分離は、センサアーティファクトへの適応を強制しながら、復号化、復号化、量子化の際に情報を破棄する。
本稿では,光学,センサモデリング,軽量セマンティックセグメンテーションネットワークを単一エンドツーエンドのRAW-to-taskパイプラインに統合するタスク駆動協調設計フレームワークを提案する。
DeepLens[19]上に構築された本システムでは,現実的な携帯電話スケールレンズモデル,学習可能なカラーフィルタアレイ,Poisson-Gaussianノイズプロセス,量子化を統合して,セグメント化の目的に直接最適化する。
KITTI-360の評価では、光学モデリングとCFA学習により、特に薄型または低感度のクラスにおいて、固定パイプラインよりも一貫したmIoUの改善が見られた。
重要なことに、これらのロバスト性の向上は、エッジのデプロイ可能性を示す約28FPSで動作するコンパクトな1Mパラメータモデルによって達成される。
視覚的および定量的分析は、共設計のセンサーがセマンティック構造への獲得をどのように適応し、境界を鋭くし、ぼやけ、ノイズ、低ビット深度の下で精度を維持するかをさらに強調する。
これらの知見は、自律システムにおける効率性、信頼性、デプロイ可能な認識への原則として、光学、センサー、ネットワークの完全な協調最適化を確立した。
関連論文リスト
- Robust Single-shot Structured Light 3D Imaging via Neural Feature Decoding [33.013553875034795]
単発構造光システムを用いた能動3次元イメージングの問題点を考察する。
従来の構造化光法は、通常、ピクセル領域マッチングアルゴリズムによって深度対応をデコードする。
ニューラル特徴マッチングの最近の進歩に触発されて、学習に基づく構造化光復号フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T02:47:38Z) - SPORTS: Simultaneous Panoptic Odometry, Rendering, Tracking and Segmentation for Urban Scenes Understanding [0.0]
本稿では,全体像理解のための新しいフレームワーク SPORTS を提案する。
Video Panoptic (VPS)、Visual Odometry (VO)、Scene Renderingタスクを反復的で統一された視点に統合する。
我々の注意に基づく特徴融合は、計測、追跡、セグメンテーション、新しいビュータスクにおいて、既存の最先端の合成方法よりも優れています。
論文 参考訳(メタデータ) (2025-10-14T17:28:19Z) - LensNet: An End-to-End Learning Framework for Empirical Point Spread Function Modeling and Lensless Imaging Reconstruction [32.85180149439811]
レンズレスイメージングは、従来のレンズベースのシステムに代わる有望な選択肢である。
従来のレンズレス技術は、しばしば明示的な校正と広範な前処理を必要とする。
本研究では,空間領域と周波数領域の表現を統合したエンドツーエンドのディープラーニングフレームワークであるLensNetを提案する。
論文 参考訳(メタデータ) (2025-05-03T09:11:52Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Learning Deep Context-Sensitive Decomposition for Low-Light Image
Enhancement [58.72667941107544]
典型的なフレームワークは、照明と反射を同時に推定することであるが、特徴空間にカプセル化されたシーンレベルの文脈情報を無視する。
本研究では,空間スケールにおけるシーンレベルのコンテキスト依存を生かした,コンテキスト依存型分解ネットワークアーキテクチャを提案する。
チャネル数を減らして軽量なCSDNet(LiteCSDNet)を開発する。
論文 参考訳(メタデータ) (2021-12-09T06:25:30Z) - RRNet: Relational Reasoning Network with Parallel Multi-scale Attention
for Salient Object Detection in Optical Remote Sensing Images [82.1679766706423]
光リモートセンシング画像(RSI)のためのSODは、光学RSIから視覚的に特徴的な物体や領域を探索・抽出することを目的としている。
光学RSIにおけるSODに並列なマルチスケールアテンションを持つリレーショナル推論ネットワークを提案する。
提案するRRNetは,既存の最先端SODコンペティタよりも質的,定量的に優れている。
論文 参考訳(メタデータ) (2021-10-27T07:18:32Z) - Lite-HDSeg: LiDAR Semantic Segmentation Using Lite Harmonic Dense
Convolutions [2.099922236065961]
完全3ドルのLiDAR点雲のセマンティックセグメンテーションのための,新しいリアルタイム畳み込みニューラルネットワークLite-HDSegを提案する。
提案手法は,リアルタイムに動作可能な意味セグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-16T04:54:57Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Learning a Probabilistic Strategy for Computational Imaging Sensor
Selection [16.553234762932938]
本稿では,センサ設計のための確率的センササンプリング戦略を学習する物理制約付き,完全微分可能なオートエンコーダを提案する。
提案手法は,センサ選択の相関関係を2次完全接続型Isingモデルとして特徴付ける,システムに好まれるサンプリング分布を学習する。
論文 参考訳(メタデータ) (2020-03-23T17:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。