論文の概要: Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2406.09546v1
- Date: Thu, 13 Jun 2024 19:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:24:36.182773
- Title: Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment
- Title(参考訳): Q-Mamba:画像品質評価のためのVision Mambaの最初の探索について
- Authors: Fengbin Guan, Xin Li, Zihao Yu, Yiting Lu, Zhibo Chen,
- Abstract要約: 我々は、最近人気になった基礎モデルであるステートスペースモデル(State Space Model/Mamba)を、画像品質評価において初めて探求する。
本稿では,3つの重要なIQAタスクに対して,Q-Mambaモデルを再検討し適応させることにより,Q-Mambaを提案する。
提案するStylePromptは,より少ない計算コストで知覚伝達能力を向上させる。
- 参考スコア(独自算出の注目度): 15.320011514412437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we take the first exploration of the recently popular foundation model, i.e., State Space Model/Mamba, in image quality assessment, aiming at observing and excavating the perception potential in vision Mamba. A series of works on Mamba has shown its significant potential in various fields, e.g., segmentation and classification. However, the perception capability of Mamba has been under-explored. Consequently, we propose Q-Mamba by revisiting and adapting the Mamba model for three crucial IQA tasks, i.e., task-specific, universal, and transferable IQA, which reveals that the Mamba model has obvious advantages compared with existing foundational models, e.g., Swin Transformer, ViT, and CNNs, in terms of perception and computational cost for IQA. To increase the transferability of Q-Mamba, we propose the StylePrompt tuning paradigm, where the basic lightweight mean and variance prompts are injected to assist the task-adaptive transfer learning of pre-trained Q-Mamba for different downstream IQA tasks. Compared with existing prompt tuning strategies, our proposed StylePrompt enables better perception transfer capability with less computational cost. Extensive experiments on multiple synthetic, authentic IQA datasets, and cross IQA datasets have demonstrated the effectiveness of our proposed Q-Mamba.
- Abstract(参考訳): 本研究では,近年普及している基礎モデルであるState Space Model/Mambaを画像品質評価において初めて探求し,視覚的マンバの知覚ポテンシャルを観察・発掘することを目的とした。
マンバに関する一連の研究は、様々な分野、例えば、セグメンテーション、分類においてその大きな可能性を示してきた。
しかし、マンバの知覚能力は過小評価されている。
そこで我々は,Q-Mambaモデルを再検討し,タスク固有,普遍,移動可能なIQAの3つの重要なIQAタスクに対して適応させることにより,既存の基本モデル,例えば,Swin Transformer,ViT,CNNに対して,IQAの知覚と計算コストの観点から,Mambaモデルが明らかなアドバンテージを持つことを示す。
Q-Mambaの転送可能性を高めるために,各下流IQAタスクに対するQ-Mambaのタスク適応型トランスファー学習を支援するために,基本的な軽量平均値と分散プロンプトを注入するStylePromptチューニングパラダイムを提案する。
提案したStylePromptは,既存のプロンプトチューニング手法と比較して,計算コストの削減による知覚伝達能力の向上を実現している。
提案するQ-Mambaの有効性を示すために,複数の合成,真正IQAデータセット,相互IQAデータセットに関する大規模な実験を行った。
関連論文リスト
- An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。
属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。
これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文 参考訳(メタデータ) (2024-07-15T00:48:06Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。
マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。
本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文 参考訳(メタデータ) (2024-06-24T15:27:21Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - An Investigation of Incorporating Mamba for Speech Enhancement [45.610243349192096]
我々は,マンバをベースとした回帰モデルを用いて音声信号の特徴付けと,SEMambaと呼ばれるマンバに基づくSEシステムの構築を行う。
SEMambaは有望な結果を示し、VoiceBank-DEMANDデータセットでPSSQスコアが3.55に達した。
論文 参考訳(メタデータ) (2024-05-10T16:18:49Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。