論文の概要: Explicit and implicit models in infrared and visible image fusion
- arxiv url: http://arxiv.org/abs/2206.09581v1
- Date: Mon, 20 Jun 2022 06:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:02:06.916329
- Title: Explicit and implicit models in infrared and visible image fusion
- Title(参考訳): 赤外および可視画像融合における明示的および暗黙的モデル
- Authors: Zixuan Wang, Bin Sun
- Abstract要約: 本稿では,画像融合におけるディープラーニングモデルの限界とそれに対応する最適化戦略について論じる。
21個の試験セットの比較実験を10種類のモデルで行った。
定性的かつ定量的な結果は、暗黙的なモデルが画像の特徴を学習するより包括的な能力を持っていることを示している。
- 参考スコア(独自算出の注目度): 5.842112272932475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible images, as multi-modal image pairs, show significant
differences in the expression of the same scene. The image fusion task is faced
with two problems: one is to maintain the unique features between different
modalities, and the other is to maintain features at various levels like local
and global features. This paper discusses the limitations of deep learning
models in image fusion and the corresponding optimization strategies. Based on
artificially designed structures and constraints, we divide models into
explicit models, and implicit models that adaptively learn high-level features
or can establish global pixel associations. Ten models for comparison
experiments on 21 test sets were screened. The qualitative and quantitative
results show that the implicit models have more comprehensive ability to learn
image features. At the same time, the stability of them needs to be improved.
Aiming at the advantages and limitations to be solved by existing algorithms,
we discuss the main problems of multi-modal image fusion and future research
directions.
- Abstract(参考訳): マルチモーダル画像対としての赤外線と可視画像は、同じシーンの表現に有意な差異を示す。
画像融合タスクは2つの問題に直面している: 1つは異なるモダリティ間のユニークな特徴を維持すること、もう1つは局所的特徴やグローバル的特徴のような様々なレベルで特徴を維持することである。
本稿では,画像融合におけるディープラーニングモデルの限界とそれに対応する最適化戦略について論じる。
人工的に設計された構造と制約に基づき、モデルを明示的なモデルに分割し、高レベルな特徴を適応的に学習したり、グローバルピクセル関連付けを確立できる暗黙のモデルを分割する。
21個の試験セットの比較実験を10種類のモデルで行った。
定性的かつ定量的な結果は、暗黙的モデルは画像の特徴を学習するより包括的な能力を持っていることを示している。
同時に、それらの安定性も改善する必要がある。
既存のアルゴリズムで解決すべき利点と限界を考慮し,マルチモーダル画像融合の主な課題と今後の研究方向性について議論する。
関連論文リスト
- Progressive Compositionality In Text-to-Image Generative Models [33.18510121342558]
拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。
本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。
また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
論文 参考訳(メタデータ) (2024-10-22T05:59:29Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image
Diffusion Models [48.10798436003449]
テキスト間の拡散モデルによって生成された画像は、提供されたテキストプロンプトの意味的な意図を忠実に表現するとは限らない。
私たちの研究は、対照的な文脈でこの課題に取り組むことによって、新しい視点を導入します。
さまざまなシナリオにまたがって広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含む。
論文 参考訳(メタデータ) (2023-12-11T01:42:15Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - A Better Loss for Visual-Textual Grounding [74.81353762517979]
テキスト句と画像とが与えられた場合、視覚的接地問題は、文によって参照された画像の内容を特定するタスクとして定義される。
ヒューマン・コンピュータ・インタラクション、画像・テキスト・リファレンス・レゾリューション、ビデオ・テキスト・リファレンス・レゾリューションなどにおける現実的な応用がいくつかある課題である。
本稿では,より効率的な損失関数の導入により,最先端モデルよりも高い精度が得られるモデルを提案する。
論文 参考訳(メタデータ) (2021-08-11T16:26:54Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。