論文の概要: FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image
Fusion
- arxiv url: http://arxiv.org/abs/2209.11277v1
- Date: Thu, 22 Sep 2022 19:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 13:27:35.141834
- Title: FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image
Fusion
- Title(参考訳): FusionVAE:RGB画像融合のための階層的変分オートエンコーダ
- Authors: Fabian Duffhauss, Ngo Anh Vien, Hanna Ziesche, Gerhard Neumann
- Abstract要約: 本稿では,多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層型変分オートエンコーダを提案する。
提案手法では,複数ノイズ,隠蔽,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
- 参考スコア(独自算出の注目度): 16.64908104831795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sensor fusion can significantly improve the performance of many computer
vision tasks. However, traditional fusion approaches are either not data-driven
and cannot exploit prior knowledge nor find regularities in a given dataset or
they are restricted to a single application. We overcome this shortcoming by
presenting a novel deep hierarchical variational autoencoder called FusionVAE
that can serve as a basis for many fusion tasks. Our approach is able to
generate diverse image samples that are conditioned on multiple noisy,
occluded, or only partially visible input images. We derive and optimize a
variational lower bound for the conditional log-likelihood of FusionVAE. In
order to assess the fusion capabilities of our model thoroughly, we created
three novel datasets for image fusion based on popular computer vision
datasets. In our experiments, we show that FusionVAE learns a representation of
aggregated information that is relevant to fusion tasks. The results
demonstrate that our approach outperforms traditional methods significantly.
Furthermore, we present the advantages and disadvantages of different design
choices.
- Abstract(参考訳): センサフュージョンは多くのコンピュータビジョンタスクの性能を大幅に向上させることができる。
しかし、従来の融合アプローチはデータ駆動ではなく、事前の知識を活用できないか、特定のデータセットの規則性を見つけることができないか、あるいは単一のアプリケーションに限定される。
我々は、多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層的変動オートエンコーダを提示することで、この欠点を克服する。
提案手法では,複数ノイズ,閉鎖,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
我々は,fusionvaeの条件付き対数類似度に対する変分下界の導出と最適化を行う。
モデルの融合能力を徹底的に評価するために,一般的なコンピュータビジョンデータセットに基づく画像融合のための3つの新しいデータセットを構築した。
本研究では,FusionVAEが融合タスクに関連する集約情報の表現を学習していることを示す。
その結果,従来の手法よりも優れた手法が得られた。
さらに,異なる設計選択の利点と欠点について述べる。
関連論文リスト
- FusionMamba: Efficient Image Fusion with State Space Model [35.57157248152558]
画像融合は、スペクトル情報に制限のある高分解能マルチ・ハイパスペクトル画像と、スペクトルデータに富んだ低分解能画像を生成することを目的としている。
画像融合のための現在のディープラーニング(DL)ベースの手法は、CNNやTransformerを使って特徴を抽出し、異なるタイプのデータをマージする。
本稿では,効率的な画像融合法であるFusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Bayesian Fusion for Infrared and Visible Images [26.64101343489016]
本稿では,赤外・可視画像のための新しいベイズ融合モデルを構築した。
我々は、融合画像が人間の視覚系を満たすようにすることを目指している。
従来の手法と比較して、新しいモデルは、高照度なターゲットとリッチテクスチャの詳細を持つより良い融合画像を生成することができる。
論文 参考訳(メタデータ) (2020-05-12T14:57:19Z) - VMLoc: Variational Fusion For Learning-Based Multimodal Camera
Localization [46.607930208613574]
本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
論文 参考訳(メタデータ) (2020-03-12T14:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。