論文の概要: BSMamba: Brightness and Semantic Modeling for Long-Range Interaction in Low-Light Image Enhancement
- arxiv url: http://arxiv.org/abs/2506.18346v1
- Date: Mon, 23 Jun 2025 07:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.891365
- Title: BSMamba: Brightness and Semantic Modeling for Long-Range Interaction in Low-Light Image Enhancement
- Title(参考訳): BSMamba:低照度画像強調のためのロングレンジインタラクションのための明るさとセマンティックモデリング
- Authors: Tongshun Zhang, Pingping Liu, Mengen Cai, Zijian Zhang, Yubing Lu, Qiuzhan Zhou,
- Abstract要約: 現在の低照度画像強調法(LLIE)は、セマンティック一貫性、細部、計算効率を保ちながら、輝度を同時に改善する上で重要な制限に直面している。
BSMamba は,Brightness Mamba と Semantic Mamba の2つの特別に設計されたコンポーネントからなる新しい視覚的マンバアーキテクチャである。
BSMambaは、セマンティック一貫性を維持しながらLLIEで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 3.3392058493559693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current low-light image enhancement (LLIE) methods face significant limitations in simultaneously improving brightness while preserving semantic consistency, fine details, and computational efficiency. With the emergence of state-space models, particularly Mamba, image restoration has achieved remarkable performance, yet existing visual Mamba approaches flatten 2D images into 1D token sequences using fixed scanning rules, critically limiting interactions between distant tokens with causal relationships and constraining their ability to capture meaningful long-range dependencies. To address these fundamental limitations, we propose BSMamba, a novel visual Mamba architecture comprising two specially designed components: Brightness Mamba and Semantic Mamba. The Brightness Mamba revolutionizes token interaction patterns by prioritizing connections between distant tokens with similar brightness levels, effectively addressing the challenge of brightness restoration in LLIE tasks through brightness-guided selective attention. Complementing this, the Semantic Mamba establishes priority interactions between tokens sharing similar semantic meanings, allowing the model to maintain contextual consistency by connecting semantically related regions across the image, thus preserving the hierarchical nature of image semantics during enhancement. By intelligently modeling tokens based on brightness and semantic similarity rather than arbitrary scanning patterns, BSMamba transcends the constraints of conventional token sequencing while adhering to the principles of causal modeling. Extensive experiments demonstrate that BSMamba achieves state-of-the-art performance in LLIE while preserving semantic consistency.
- Abstract(参考訳): 現在の低照度画像強調法(LLIE)は、セマンティック一貫性、細部、計算効率を保ちながら、輝度を同時に改善する上で重要な制限に直面している。
状態空間モデル、特にマンバの出現により、画像復元は顕著なパフォーマンスを達成しているが、既存の視覚的マンバは、固定された走査規則を用いて2次元画像を1次元トークンシーケンスにフラット化し、因果関係を持つ遠いトークン間の相互作用を批判的に制限し、意味のある長距離依存を捕捉する能力を制限する。
BSMamba は,Brightness Mamba と Semantic Mamba の2つの特別に設計されたコンポーネントから構成される新しい視覚的マンバアーキテクチャである。
明度マムバは、類似の明度レベルを持つ遠くのトークン間の接続を優先順位付けすることでトークン間の相互作用パターンを革新し、明度誘導された選択的な注意を通してLLIEタスクの明るさ回復の課題に効果的に対処する。
これを補完するセマンティック・マンバは、類似の意味を共有するトークン間の優先的な相互作用を確立し、画像間のセマンティック関連領域を接続することでコンテキスト整合性を維持することによって、拡張中の画像セマンティクスの階層的性質を保存する。
任意の走査パターンではなく、明度と意味的類似性に基づくトークンをインテリジェントにモデリングすることで、BSMambaは因果モデリングの原則を固執しつつ、従来のトークンシーケンシングの制約を超越する。
大規模な実験により、BSMambaはセマンティック一貫性を維持しながらLLIEの最先端のパフォーマンスを達成することが示された。
関連論文リスト
- RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - MambaReg: Mamba-Based Disentangled Convolutional Sparse Coding for Unsupervised Deformable Multi-Modal Image Registration [13.146228081053714]
従来の学習に基づくアプローチは、登録ネットワークを解釈不可能なブラックボックスと見なすことが多い。
我々は,マンバの長いシーケンスをキャプチャする強力な能力を統合した新しいマンバベースのアーキテクチャであるマンバレグを提案する。
ネットワークは,マルチモーダル画像間の相関を積極的に捉え,集中的な変形場予測を可能にする。
論文 参考訳(メタデータ) (2024-11-03T01:30:59Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。