論文の概要: Keypoint Detection and Description for Raw Bayer Images
- arxiv url: http://arxiv.org/abs/2503.08673v1
- Date: Tue, 11 Mar 2025 17:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:24.458669
- Title: Keypoint Detection and Description for Raw Bayer Images
- Title(参考訳): 生バイヤ画像のキーポイント検出と記述
- Authors: Jiakai Lin, Jinchang Zhang, Guoyu Lu,
- Abstract要約: キーポイント検出と局所的特徴記述は、ロボット知覚における基本的なタスクであり、SLAM、ロボットのローカライゼーション、特徴マッチング、ポーズ推定、および3Dマッピングのようなアプリケーションに不可欠である。
既存の手法は主にRGB画像で動作するが,画像信号処理(ISP)の必要性を回避して,生画像を直接処理する新しいネットワークを提案する。
この研究は、生画像に特化してキーポイント検出と特徴記述ネットワークを開発する最初の試みであり、リソース制約のある環境に対してより効率的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 10.443350617606972
- License:
- Abstract: Keypoint detection and local feature description are fundamental tasks in robotic perception, critical for applications such as SLAM, robot localization, feature matching, pose estimation, and 3D mapping. While existing methods predominantly operate on RGB images, we propose a novel network that directly processes raw images, bypassing the need for the Image Signal Processor (ISP). This approach significantly reduces hardware requirements and memory consumption, which is crucial for robotic vision systems. Our method introduces two custom-designed convolutional kernels capable of performing convolutions directly on raw images, preserving inter-channel information without converting to RGB. Experimental results show that our network outperforms existing algorithms on raw images, achieving higher accuracy and stability under large rotations and scale variations. This work represents the first attempt to develop a keypoint detection and feature description network specifically for raw images, offering a more efficient solution for resource-constrained environments.
- Abstract(参考訳): キーポイント検出と局所的特徴記述は、ロボット知覚における基本的なタスクであり、SLAM、ロボットのローカライゼーション、特徴マッチング、ポーズ推定、および3Dマッピングのようなアプリケーションに不可欠である。
既存の手法は主にRGB画像で動作するが,画像信号処理(ISP)の必要性を回避して,生画像を直接処理する新しいネットワークを提案する。
このアプローチは、ロボットビジョンシステムにとって重要なハードウェア要件とメモリ消費を大幅に削減する。
提案手法では,RGBに変換することなく,生画像に直接畳み込みを実行し,チャネル間情報を保存できる2つのカスタム設計の畳み込みカーネルを提案する。
実験の結果,我々のネットワークは生画像上で既存のアルゴリズムより優れており,大きな回転とスケールのばらつきの下で高い精度と安定性を実現していることがわかった。
この研究は、生画像に特化してキーポイント検出と特徴記述ネットワークを開発する最初の試みであり、リソース制約のある環境に対してより効率的なソリューションを提供する。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Modular Anti-noise Deep Learning Network for Robotic Grasp Detection
Based on RGB Images [2.759223695383734]
本稿では,単一のRGB画像からつかむポーズを検出するための興味深いアプローチを提案する。
本稿では,認識とセマンティックセグメンテーションを付加したモジュール型学習ネットワークを提案する。
提案手法の有効性と精度を,実践的な実験と評価を通じて実証する。
論文 参考訳(メタデータ) (2023-10-30T02:01:49Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Raw Image Reconstruction with Learned Compact Metadata [61.62454853089346]
本稿では,メタデータとしての潜在空間におけるコンパクトな表現をエンドツーエンドで学習するための新しいフレームワークを提案する。
提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てることができることを示す。
論文 参考訳(メタデータ) (2023-02-25T05:29:45Z) - Enabling ISP-less Low-Power Computer Vision [4.102254385058941]
汎用的な高レベル視覚タスクのための大規模ベンチマークの生版をリリースする。
ISPなしのCVシステムでは、生画像のトレーニングにより、テスト精度が7.1%向上する。
そこで本研究では,画素内CNN計算と組み合わせた,エネルギー効率のよいアナログインピクセル復号法を提案する。
論文 参考訳(メタデータ) (2022-10-11T13:47:30Z) - SPSN: Superpixel Prototype Sampling Network for RGB-D Salient Object
Detection [5.2134203335146925]
近年,RGB-D Salient Object Detection (SOD) が注目されている。
深層学習手法の進歩にもかかわらず、RGB-D SODは、RGB画像と深度マップと低品質深度マップとの間に大きな領域ギャップがあるため、依然として困難である。
本稿では,この問題を解決するために,新しいスーパーピクセルプロトタイプサンプリングネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-16T10:43:14Z) - Model-Based Image Signal Processors via Learnable Dictionaries [6.766416093990318]
デジタルカメラは画像信号処理装置(ISP)を用いてRAW読み出しをRGB画像に変換する
近年のアプローチでは、RGBからRAWマッピングを推定することで、このギャップを埋めようとしている。
本稿では,学習可能かつ解釈可能なハイブリッド・モデルベースかつデータ駆動型ISPを提案する。
論文 参考訳(メタデータ) (2022-01-10T08:36:10Z) - TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。
提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-08-10T08:22:05Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。