論文の概要: ModalFormer: Multimodal Transformer for Low-Light Image Enhancement
- arxiv url: http://arxiv.org/abs/2507.20388v1
- Date: Sun, 27 Jul 2025 19:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.556093
- Title: ModalFormer: Multimodal Transformer for Low-Light Image Enhancement
- Title(参考訳): ModalFormer: 低照度画像強調のためのマルチモーダルトランス
- Authors: Alexandru Brateanu, Raul Balmez, Ciprian Orhei, Codruta Ancuti, Cosmin Ancuti,
- Abstract要約: 低照度画像強調(LLIE)は、低照度条件下で撮影される画像のノイズ、詳細さの喪失、コントラストの低さのため、基本的な課題である。
近年の手法はRGB画像のピクセルレベルの変換にのみ依存しており、複数の視覚的モダリティから利用可能なリッチなコンテキスト情報を無視することが多い。
LLIEのための最初の大規模マルチモーダルフレームワークであるModalFormerについて述べる。
- 参考スコア(独自算出の注目度): 42.56657385578874
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Low-light image enhancement (LLIE) is a fundamental yet challenging task due to the presence of noise, loss of detail, and poor contrast in images captured under insufficient lighting conditions. Recent methods often rely solely on pixel-level transformations of RGB images, neglecting the rich contextual information available from multiple visual modalities. In this paper, we present ModalFormer, the first large-scale multimodal framework for LLIE that fully exploits nine auxiliary modalities to achieve state-of-the-art performance. Our model comprises two main components: a Cross-modal Transformer (CM-T) designed to restore corrupted images while seamlessly integrating multimodal information, and multiple auxiliary subnetworks dedicated to multimodal feature reconstruction. Central to the CM-T is our novel Cross-modal Multi-headed Self-Attention mechanism (CM-MSA), which effectively fuses RGB data with modality-specific features--including deep feature embeddings, segmentation information, geometric cues, and color information--to generate information-rich hybrid attention maps. Extensive experiments on multiple benchmark datasets demonstrate ModalFormer's state-of-the-art performance in LLIE. Pre-trained models and results are made available at https://github.com/albrateanu/ModalFormer.
- Abstract(参考訳): 低照度画像強調(LLIE)は、低照度条件下で撮影された画像のノイズ、詳細さの喪失、コントラストの低さのため、基本的な課題である。
近年の手法はRGB画像のピクセルレベルの変換にのみ依存しており、複数の視覚的モダリティから利用可能なリッチなコンテキスト情報を無視することが多い。
本稿では,9つの補助モダリティをフル活用して最先端性能を実現するLLIEのための,初の大規模マルチモーダルフレームワークであるModalFormerを紹介する。
本モデルでは,マルチモーダル情報をシームレスに統合しながら劣化画像の復元を図ったクロスモーダルトランス (CM-T) と,マルチモーダル特徴再構成専用の補助サブネットからなる。
CM-Tの中心となるのは、情報に富むハイブリッドアテンションマップを生成するために、深い特徴埋め込み、セグメンテーション情報、幾何学的手がかり、色情報を含む、RGBデータをモダリティ固有の特徴と効果的に融合するクロスモーダル多頭部自己認識機構(CM-MSA)である。
複数のベンチマークデータセットに対する大規模な実験は、LLIEにおけるModalFormerの最先端のパフォーマンスを示している。
事前トレーニングされたモデルと結果はhttps://github.com/albrateanu/ModalFormer.comで公開されている。
関連論文リスト
- MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。
自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。
本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-07-13T10:52:59Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Generalizing Supervised Deep Learning MRI Reconstruction to Multiple and
Unseen Contrasts using Meta-Learning Hypernetworks [1.376408511310322]
本研究の目的は、画像再構成のためのマルチモーダルなメタラーニングモデルを開発することである。
提案モデルは,モード固有の重みを生成するために進化するハイパーネットである。
MRI再建実験の結果, 関節リコンストラクションの精度は, 関節リコンストラクションよりも優れていた。
論文 参考訳(メタデータ) (2023-07-13T14:22:59Z) - Dynamic Enhancement Network for Partial Multi-modality Person
Re-identification [52.70235136651996]
複数のモーダルの表現能力を維持しつつ、任意のモダリティを欠くことができる新しい動的拡張ネットワーク(DENet)を設計する。
欠落状態は変更可能であるため、動的拡張モジュールを設計し、欠落状態に応じて動的にモダリティ特性を適応的に向上する。
論文 参考訳(メタデータ) (2023-05-25T06:22:01Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting [40.4816930622052]
マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
論文 参考訳(メタデータ) (2022-08-14T02:42:09Z) - Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance [49.94504248096527]
異なるモードの特徴表現をモデル化するためのDGONet(Depth-Guided Outpainting Network)を提案する。
1)マルチモーダル学習モジュールは、異なるモーダル特性の観点から独自の深さとRGBの特徴表現を生成する。
我々は、不明瞭な輪郭を増進し、信頼性の高いコンテンツ生成を迅速化するために、クロスモーダルロスとエッジロスからなる追加の制約戦略を特別に設計する。
論文 参考訳(メタデータ) (2022-04-12T06:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。