論文の概要: Infrared and Visible Image Fusion with Hierarchical Human Perception
- arxiv url: http://arxiv.org/abs/2409.09291v1
- Date: Sat, 14 Sep 2024 03:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:29:12.233299
- Title: Infrared and Visible Image Fusion with Hierarchical Human Perception
- Title(参考訳): 階層型人間の知覚による赤外・可視画像融合
- Authors: Guang Yang, Jie Li, Xin Liu, Zhusi Zhong, Xinbo Gao,
- Abstract要約: 画像融合法として階層型パーセプションフュージョン(HPFusion)を導入する。
画像ペアを見る際に人間が注目する複数の質問を提案し,その回答は画像に応じてLarge Vision-Language Modelを介して生成される。
解答のテキストは融合ネットワークにエンコードされ、最適化はまた、解答された画像の人間の意味的分布を、ソース画像とよりよく似たものに導くことを目的としている。
- 参考スコア(独自算出の注目度): 45.63854455306689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion combines images from multiple domains into one image, containing complementary information from source domains. Existing methods take pixel intensity, texture and high-level vision task information as the standards to determine preservation of information, lacking enhancement for human perception. We introduce an image fusion method, Hierarchical Perception Fusion (HPFusion), which leverages Large Vision-Language Model to incorporate hierarchical human semantic priors, preserving complementary information that satisfies human visual system. We propose multiple questions that humans focus on when viewing an image pair, and answers are generated via the Large Vision-Language Model according to images. The texts of answers are encoded into the fusion network, and the optimization also aims to guide the human semantic distribution of the fused image more similarly to source images, exploring complementary information within the human perception domain. Extensive experiments demonstrate our HPFusoin can achieve high-quality fusion results both for information preservation and human visual enhancement.
- Abstract(参考訳): 画像融合は、複数のドメインからのイメージを1つのイメージに結合し、ソースドメインからの補完的な情報を含む。
既存の手法では、情報保存の基準として画素強度、テクスチャ、高レベルの視覚タスク情報を採用しており、人間の知覚の強化を欠いている。
画像融合法であるHPFusionを導入し、Large Vision-Language Modelを用いて、人間の視覚系を満たす補完情報を保存する。
画像ペアを見る際に人間が注目する複数の質問を提案し,その回答は画像に応じてLarge Vision-Language Modelを介して生成される。
解答のテキストは融合ネットワークにエンコードされ、その最適化はまた、解答された画像の人間の意味的分布を、人間の知覚領域内で補完的な情報を探索するソース画像とよりよく似ているように導くことを目的としている。
広汎な実験により,HPFusoinは情報保存と人体視力増強の両面で高品質な融合を達成できた。
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Image Fusion via Vision-Language Model [91.36809431547128]
VIsion-Language Model (FILM)による画像融合という新しい融合パラダイムを導入する。
FILMは画像からセマンティックプロンプトを生成し、それらをChatGPTに入力し、包括的なテキスト記述を行う。
これらの記述はテキスト領域内で融合され、視覚情報融合を導く。
FILMは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて有望な結果を示している。
論文 参考訳(メタデータ) (2024-02-03T18:36:39Z) - Image Anything: Towards Reasoning-coherent and Training-free Multi-modal
Image Generation [9.573188010530217]
ImgAnyは、人間の推論を模倣し高品質な画像を生成する、新しいエンドツーエンドのマルチモーダル生成モデルである。
本手法は, 7つのモダリティの組み合わせを効率よく, 柔軟に行うための最初の試みである。
論文 参考訳(メタデータ) (2024-01-31T08:35:40Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - AE-Net: Autonomous Evolution Image Fusion Method Inspired by Human
Cognitive Mechanism [34.57055312296812]
AE-Netで表される自律的な進化能力を持つ頑健で汎用的な画像融合法を提案する。
人間の脳の認知過程をシミュレートする複数の画像融合法の協調最適化により、教師なし学習画像融合タスクを半教師付き画像融合タスクまたは教師付き画像融合タスクに変換することができる。
画像融合法は, 画像融合タスクと画像融合タスクを効果的に統合し, 異なるデータセット間のデータ分布の違いを効果的に克服することができる。
論文 参考訳(メタデータ) (2020-07-17T05:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。