論文の概要: Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision
- arxiv url: http://arxiv.org/abs/2411.18025v2
- Date: Mon, 02 Dec 2024 12:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:35:54.280035
- Title: Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision
- Title(参考訳): ロボットビジョンのためのRGB-NIRステレオ画像とデータセット
- Authors: Jinnyeong Kim, Seung-Hwan Baek,
- Abstract要約: 移動ロボットに搭載されたRGB-NIRステレオカメラとLiDARセンサを備えたロボットビジョンシステムを提案する。
システムは同時に、RGBステレオ画像、NIRステレオ画像、時間同期LiDAR点の画素整列をキャプチャする。
実験により,様々な照明条件におけるRGB-NIR画像の有用性が示された。
- 参考スコア(独自算出の注目度): 11.112091693344354
- License:
- Abstract: Integrating RGB and NIR stereo imaging provides complementary spectral information, potentially enhancing robotic 3D vision in challenging lighting conditions. However, existing datasets and imaging systems lack pixel-level alignment between RGB and NIR images, posing challenges for downstream vision tasks. In this paper, we introduce a robotic vision system equipped with pixel-aligned RGB-NIR stereo cameras and a LiDAR sensor mounted on a mobile robot. The system simultaneously captures pixel-aligned pairs of RGB stereo images, NIR stereo images, and temporally synchronized LiDAR points. Utilizing the mobility of the robot, we present a dataset containing continuous video frames under diverse lighting conditions. We then introduce two methods that utilize the pixel-aligned RGB-NIR images: an RGB-NIR image fusion method and a feature fusion method. The first approach enables existing RGB-pretrained vision models to directly utilize RGB-NIR information without fine-tuning. The second approach fine-tunes existing vision models to more effectively utilize RGB-NIR information. Experimental results demonstrate the effectiveness of using pixel-aligned RGB-NIR images across diverse lighting conditions.
- Abstract(参考訳): RGBとNIRステレオイメージングを統合することで、補完的なスペクトル情報が得られる。
しかし、既存のデータセットとイメージングシステムでは、RGBとNIR画像のピクセルレベルのアライメントが欠如しており、下流の視覚タスクに課題が生じる。
本稿では,RGB-NIRステレオカメラと移動ロボットに搭載されたLiDARセンサを備えたロボットビジョンシステムを提案する。
システムは同時に、RGBステレオ画像、NIRステレオ画像、時間同期LiDAR点の画素整列をキャプチャする。
ロボットの移動性を利用して,様々な照明条件下で連続的な映像フレームを含むデータセットを提案する。
次に,RGB-NIR画像融合法と特徴融合法という,画素整列RGB-NIR画像を利用する2つの手法を提案する。
最初のアプローチは、既存のRGBプリトレーニングされた視覚モデルが、微調整なしで直接RGB-NIR情報を利用することを可能にする。
第2のアプローチは、RGB-NIR情報をより効果的に活用するために、既存の視覚モデルを微調整する。
実験により,様々な照明条件におけるRGB-NIR画像の有用性が示された。
関連論文リスト
- Pix2Next: Leveraging Vision Foundation Models for RGB to NIR Image Translation [0.536022165180739]
RGB入力から高画質近赤外(NIR)画像を生成する新しい画像画像変換フレームワークPix2Nextを提案する。
マルチスケールのPatchGAN識別器は、様々な詳細レベルでリアルな画像生成を保証し、慎重に設計された損失関数は、グローバルなコンテキスト理解と局所的な特徴保存を結びつける。
提案手法により、追加のデータ取得やアノテーションの取り組みなしに、NIRデータセットのスケールアップが可能となり、NIRベースのコンピュータビジョンアプリケーションの進歩が加速する可能性がある。
論文 参考訳(メタデータ) (2024-09-25T07:51:47Z) - SEL-CIE: Knowledge-Guided Self-Supervised Learning Framework for CIE-XYZ Reconstruction from Non-Linear sRGB Images [7.932206255996779]
CIE-XYZ色空間は、カメラパイプラインの一部として使用されるデバイスに依存しない線形空間である。
画像は通常非線形状態に保存され、従来の方法でCIE-XYZカラー画像を実現することは必ずしも不可能である。
本稿では,CIE-XYZ 画像と sRGB 画像の再構成に SSL 手法を併用したフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T17:20:41Z) - UniRGB-IR: A Unified Framework for RGB-Infrared Semantic Tasks via Adapter Tuning [17.36726475620881]
我々は、RGB-IRセマンティックタスクを統合するために、UniRGB-IRと呼ばれる汎用的で効率的なフレームワークを提案する。
よりリッチなRGB-IR機能を事前学習基盤モデルに効率的に導入する新しいアダプタを開発した。
様々なRGB-IRダウンストリームタスクに対する実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-26T12:21:57Z) - NIR-Assisted Image Denoising: A Selective Fusion Approach and A Real-World Benchmark Dataset [53.79524776100983]
近赤外(NIR)画像を活用して、視認可能なRGB画像の復調を支援することで、この問題に対処する可能性を示している。
既存の作品では、NIR情報を効果的に活用して現実のイメージを飾ることに苦戦している。
先進デノナイジングネットワークにプラグイン・アンド・プレイ可能な効率的な選択核融合モジュール(SFM)を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:54:26Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - DarkVisionNet: Low-Light Imaging via RGB-NIR Fusion with Deep
Inconsistency Prior [6.162654963520402]
低照度画像における高強度ノイズは、既存のアルゴリズムに反するRGB-NIR画像間の構造不整合の影響を増幅する。
我々は、深部構造と深部不整合優先(DIP)という2つの技術的特徴を持つ新しいRGB-NIR融合アルゴリズムDark Vision Net(DVN)を提案する。
RGBドメインとNIRドメインの両方の深い構造に基づいて、RGB-NIRの融合を導くために構造不整合を利用するためのDIPを導入する。
論文 参考訳(メタデータ) (2023-03-13T03:31:29Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。