Fugu-MT 論文翻訳(概要): LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution

論文の概要: LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution

arxiv url: http://arxiv.org/abs/2411.07750v1
Date: Tue, 12 Nov 2024 12:23:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.902823
Title: LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution
Title（参考訳）: LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution
Authors: Aditya Kasliwal, Ishaan Gakhar, Aryan Kamani, Pratinav Seth, Ujjwal Verma,
Abstract要約: 複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
参考スコア（独自算出の注目度）: 1.747623282473278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the last few years, the fusion of multi-modal data has been widely studied for various applications such as robotics, gesture recognition, and autonomous navigation. Indeed, high-quality visual sensors are expensive, and consumer-grade sensors produce low-resolution images. Researchers have developed methods to combine RGB color images with non-visual data, such as thermal, to overcome this limitation to improve resolution. Fusing multiple modalities to produce visually appealing, high-resolution images often requires dense models with millions of parameters and a heavy computational load, which is commonly attributed to the intricate architecture of the model. We propose LapGSR, a multimodal, lightweight, generative model incorporating Laplacian image pyramids for guided thermal super-resolution. This approach uses a Laplacian Pyramid on RGB color images to extract vital edge information, which is then used to bypass heavy feature map computation in the higher layers of the model in tandem with a combined pixel and adversarial loss. LapGSR preserves the spatial and structural details of the image while also being efficient and compact. This results in a model with significantly fewer parameters than other SOTA models while demonstrating excellent results on two cross-domain datasets viz. ULB17-VT and VGTSR datasets.
Abstract（参考訳）: ここ数年、ロボット工学、ジェスチャー認識、自律ナビゲーションなどの様々な用途において、マルチモーダルデータの融合が広く研究されてきた。実際、高品質な視覚センサーは高価であり、コンシューマグレードのセンサーは低解像度の画像を生成する。研究者は、RGBカラー画像と熱のような非視覚的データを組み合わせる方法を開発し、解像度を改善するためにこの制限を克服した。視覚的に魅力的で高解像度の画像を生成するために複数のモダリティを融合させるには、数百万のパラメータと重い計算負荷を持つ高密度なモデルが必要となることが多い。熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。このアプローチでは、RGBカラー画像上のラプラシアピラミッドを用いて、バイタルエッジ情報を抽出し、それを用いて、タンデムのモデルの上位層における重い特徴写像計算を、ピクセルと対角損失を組み合わせてバイパスする。 LapGSRは画像の空間的および構造的詳細を保存し、効率的でコンパクトである。その結果、他のSOTAモデルよりもパラメータが大幅に少ないモデルとなり、2つのクロスドメインデータセットvizに対して優れた結果が得られた。 ULB17-VTおよびVGTSRデータセット。

関連論文リスト

Towards Lightweight Hyperspectral Image Super-Resolution with Depthwise Separable Dilated Convolutional Network [6.5149222591754725]
ハイパースペクトル画像超解像の課題に対処するために, 軽量な深度分離型拡張畳み込みネットワーク (DSDCN) を導入する。平均二乗誤差(MSE)、L2ノルム正規化に基づく制約、スペクトル角に基づく損失を組み合わせたカスタム損失関数を提案する。提案モデルは、2つの公開ハイパースペクトルデータセット上で非常に競争力のある性能を実現する。
論文参考訳（メタデータ） (2025-05-01T07:57:23Z)
Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文参考訳（メタデータ） (2025-04-08T09:14:24Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
SwinFuSR: an image fusion-inspired model for RGB-guided thermal image super-resolution [0.16385815610837165]
超高分解能(SR)法は、高周波の詳細が欠如しているため、しばしば熱画像に苦しむ。 SwinFusionにインスパイアされたSwinFuSRは、Swin変換器をベースとしたガイド付きSRアーキテクチャである。提案手法は,Pak Signal to Noise Ratio (PSNR) とStructure SIMilarity (SSIM) の両面において,少ないパラメータと性能を有する。
論文参考訳（メタデータ） (2024-04-22T19:01:18Z)
EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文参考訳（メタデータ） (2023-12-28T10:05:13Z)
RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文参考訳（メタデータ） (2023-09-30T11:25:34Z)
Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-07-07T20:26:09Z)
Exploiting Digital Surface Models for Inferring Super-Resolution for Remotely Sensed Images [2.3204178451683264]
本稿では,SRRモデルにリアルなリモートセンシング画像の出力を強制する新しい手法を提案する。画像の通常のデジタル表面モデル(nDSM)から推定されるピクセルレベルの情報を知覚的損失として特徴空間の類似性に頼る代わりに、モデルが考慮する。視覚検査に基づいて、推定された超解像画像は、特に優れた品質を示す。
論文参考訳（メタデータ） (2022-05-09T06:02:50Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
Discrete Cosine Transform Network for Guided Depth Map Super-Resolution [19.86463937632802]
目標は、高解像度(HR)RGB画像を使用してエッジとオブジェクトの輪郭に関する余分な情報を提供し、低解像度の深度マップをHR画像にアップサンプリングできるようにすることです。本稿では,4つのコンポーネントから構成されるDCTNet(Digital Discrete Cosine Transform Network)を提案する。本手法は,最新手法を越しに,正確かつ人事深度マップを生成できることを示した。
論文参考訳（メタデータ） (2021-04-14T17:01:03Z)
Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文参考訳（メタデータ） (2021-01-26T18:57:21Z)
Real Image Super Resolution Via Heterogeneous Model Ensemble using GP-NAS [63.48801313087118]
本稿では,高密度スキップ接続を有するディープ残差ネットワークを用いた画像超解像法を提案する。提案手法は、AIM 2020 Real Image Super-Resolution Challengeの3トラックで1位を獲得した。
論文参考訳（メタデータ） (2020-09-02T22:33:23Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。