論文の概要: Shift-Window Meets Dual Attention: A Multi-Model Architecture for Specular Highlight Removal
- arxiv url: http://arxiv.org/abs/2512.04496v1
- Date: Thu, 04 Dec 2025 06:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.021045
- Title: Shift-Window Meets Dual Attention: A Multi-Model Architecture for Specular Highlight Removal
- Title(参考訳): Shift-Windowがデュアルアテンションを達成 - 仕様のハイライト除去のためのマルチモデルアーキテクチャ
- Authors: Tianci Huo, Lingfeng Qi, Yuhan Chen, Qihong Xue, Jinyuan Shao, Hai Yu, Jie Li, Zhanhua Zhang, Guofa Li,
- Abstract要約: スペックルハイライト除去(MM-SHR)のためのマルチモデルアーキテクチャを提案する。
我々は,MM-SHRの浅層部における局所的な詳細を抽出するために畳み込み演算を用い,深層部におけるグローバルな特徴を捉えるためにアテンション機構を利用する。
MM-SHRは、スペックルハイライト除去の精度と効率の両方で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 14.771301170089174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inevitable specular highlights in practical environments severely impair the visual performance, thus degrading the task effectiveness and efficiency. Although there exist considerable methods that focus on local information from convolutional neural network models or global information from transformer models, the single-type model falls into a modeling dilemma between local fine-grained details and global long-range dependencies, thus deteriorating for specular highlights with different scales. Therefore, to accommodate specular highlights of all scales, we propose a multi-model architecture for specular highlight removal (MM-SHR) that effectively captures fine-grained features in highlight regions and models long-range dependencies between highlight and highlight-free areas. Specifically, we employ convolution operations to extract local details in the shallow layers of MM-SHR, and utilize the attention mechanism to capture global features in the deep layers, ensuring both operation efficiency and removal accuracy. To model long-range dependencies without compromising computational complexity, we utilize a coarse-to-fine manner and propose Omni-Directional Attention Integration Block(OAIBlock) and Adaptive Region-Aware Hybrid-Domain Dual Attention Convolutional Network(HDDAConv) , which leverage omni-directiona pixel-shifting and window-dividing operations at the raw features to achieve specular highlight removal. Extensive experimental results on three benchmark tasks and six types of surface materials demonstrate that MM-SHR outperforms state-of-the-art methods in both accuracy and efficiency for specular highlight removal. The implementation will be made publicly available at https://github.com/Htcicv/MM-SHR.
- Abstract(参考訳): 現実的な環境での必然的なスペックハイライトは、視覚的パフォーマンスを著しく損なうため、タスクの有効性と効率を低下させる。
畳み込みニューラルネットワークモデルからの局所的な情報や、トランスフォーマーモデルからのグローバルな情報に焦点を合わせる方法がかなりあるが、単一型モデルは、局所的なきめ細かい詳細とグローバルな長距離依存関係の間のモデリングジレンマに陥り、異なるスケールのスペクトルハイライトが劣化する。
そこで本稿では, ハイライト領域の細かな特徴を効果的に捉え, ハイライト領域とハイライトフリー領域間の長距離依存性をモデル化するマルチモデルアーキテクチャを提案する。
具体的には,MM-SHRの浅層部における局所的な詳細を抽出するために畳み込み演算を用い,注目機構を用いて深層部におけるグローバルな特徴を捉え,操作効率と除去精度を両立させる。
計算複雑性を損なうことなく長距離依存関係をモデル化するため、粗大な方法でOmni-Directional Attention Integration Block(OAIBlock)とAdaptive Region-Aware Hybrid-Domain Dual Attention Convolutional Network(HDDAConv)を提案する。
3つのベンチマークタスクと6種類の表面材料に対する大規模な実験結果から、MM-SHRは、スペックルハイライト除去の精度と効率の両方において最先端の手法より優れていることが示された。
実装はhttps://github.com/Htcicv/MM-SHRで公開される。
関連論文リスト
- MSD-KMamba: Bidirectional Spatial-Aware Multi-Modal 3D Brain Segmentation via Multi-scale Self-Distilled Fusion Strategy [15.270952880303533]
本稿では,新しい3次元マルチモーダル画像分割フレームワークMSD-KMambaを提案する。
双方向の空間知覚とマルチスケールの自己蒸留を統合している。
我々のフレームワークは、セグメンテーション精度、ロバスト性、一般化における最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-28T06:34:01Z) - SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection [12.964308630328688]
赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。
ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。
本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:55:23Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Hyperspectral Images Efficient Spatial and Spectral non-Linear Model with Bidirectional Feature Learning [7.06787067270941]
本稿では,分類精度を高めつつ,データ量を大幅に削減する新しいフレームワークを提案する。
本モデルでは,空間特徴解析のための特殊ブロックによって補完されるスペクトル特徴を効率よく抽出するために,双方向逆畳み込みニューラルネットワーク(CNN)を用いる。
論文 参考訳(メタデータ) (2024-11-29T23:32:26Z) - MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
画像超解像(SR)タスクのためのマルチランジアテンショントランス (MAT) を提案する。
MATはマルチレンジ・アテンション(MA)とスパース・マルチレンジ・アテンション(SMA)の両方を促進する。
また、MSConvStarモジュールを導入し、マルチレンジ表現学習におけるモデルの能力を高める。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Dual-Hybrid Attention Network for Specular Highlight Removal [34.99543751199565]
画像やビデオの品質と解釈性を高めるため、マルチメディアアプリケーションにおいて特異ハイライト除去は重要な役割を担っている。
現在の最先端のアプローチは、しばしば追加の事前や監督に依存し、実用性と一般化能力を制限する。
本稿では、新しいハイブリッドアテンション機構を導入するエンドツーエンドネットワークであるDHAN-SHR(Dual-Hybrid Attention Network for Specular Highlightectomy)を提案する。
論文 参考訳(メタデータ) (2024-07-17T01:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。