論文の概要: Vision Transformer with Key-select Routing Attention for Single Image Dehazing
- arxiv url: http://arxiv.org/abs/2406.19703v1
- Date: Fri, 28 Jun 2024 07:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:29:51.763354
- Title: Vision Transformer with Key-select Routing Attention for Single Image Dehazing
- Title(参考訳): シングルイメージデハージングのためのキー選択ルーティングアテンション付き視覚変換器
- Authors: Lihan Tong, Weijia Li, Qingxia Yang, Liyuan Chen, Peng Chen,
- Abstract要約: Ksformerは、マルチチャネル、トップk演算子付きマルチスケールウィンドウ、およびLFPM(Lightweight Frequency Processing Module)を用いて、キー領域のインテリジェントな選択にMKRA(Multiscale Key-Select Routing Attention)を利用する。
- 参考スコア(独自算出の注目度): 7.985250115265031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ksformer, utilizing Multi-scale Key-select Routing Attention (MKRA) for intelligent selection of key areas through multi-channel, multi-scale windows with a top-k operator, and Lightweight Frequency Processing Module (LFPM) to enhance high-frequency features, outperforming other dehazing methods in tests.
- Abstract(参考訳): Ksformerは、マルチチャネル、トップk演算子付きマルチスケールウィンドウ、およびLFPM(Lightweight Frequency Processing Module)を用いて、キー領域のインテリジェントな選択にMKRA(Multiscale Key-Select Routing Attention)を利用する。
関連論文リスト
- Attention Fusion Reverse Distillation for Multi-Lighting Image Anomaly Detection [4.677326790094539]
本研究は,MLIADにおける複数入力を処理するための注意融合逆蒸留法を提案する。
Eyecandiesの実験は、AFRDが他のMLIAD代替品よりも優れたMLIAD性能を達成することを示した。
論文 参考訳(メタデータ) (2024-06-07T01:26:37Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Masked Autoencoders with Multi-Window Local-Global Attention Are Better
Audio Learners [17.747301325787618]
MW-MAE (Multi-Window Masked Autoencoder) にはMW-MHA (Multi-Window Multi-Head Attention) モジュールが搭載されている。
MW-MAEは、全体的なパフォーマンスにおいて標準MAEより一貫して優れ、より汎用的なオーディオ表現を学ぶ。
論文 参考訳(メタデータ) (2023-06-01T11:20:59Z) - Multi-Focus Image Fusion Based on Spatial Frequency(SF) and Consistency
Verification(CV) in DCT Domain [0.0]
無線視覚センサネットワーク(WVSN)は、より正確な出力画像を作成するためにマルチフォーカス画像融合を使用する。
本稿では、離散コサイン変換(DCT)標準を用いて、WVSNのマルチフォーカス画像を融合するアルゴリズムを提案する。
その結果,出力画像の視覚的品質が向上し,他のDCT技術よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-18T19:09:32Z) - MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely
Coupled Fusion and Modality-Balanced Optimization [43.958268661078925]
マルチスペクトル歩行者検出TRansformer (MS-DETR) は、エンドツーエンドの多スペクトル歩行者検出器である。
MS-DETRは2つのモダリティ固有のバックボーンとトランスフォーマーエンコーダで構成され、その後マルチモーダルトランスフォーマーデコーダが続く。
我々のエンドツーエンドのMS-DETRは、挑戦的なKAIST、CVC-14、LLVIPベンチマークデータセットよりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-01T07:45:10Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis [16.930624128228658]
音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-08-30T02:08:06Z) - Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes
for Medical Image Super-Resolution [56.622832383316215]
超解像CTおよびMRIスキャンのための新しいマルチヘッド畳み込みアテンションモジュールを提案する。
我々の注目モジュールは、畳み込み操作を用いて、複数の入力テンソルに対して共同的な空間チャネルアテンションを行う。
それぞれの頭部は空間的注意に対する特定の減少率に応じた受容野の大きさの異なる複数の注意ヘッドを導入している。
論文 参考訳(メタデータ) (2022-04-08T07:56:55Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。