論文の概要: SUM: Saliency Unification through Mamba for Visual Attention Modeling
- arxiv url: http://arxiv.org/abs/2406.17815v2
- Date: Mon, 9 Sep 2024 11:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:01:46.333834
- Title: SUM: Saliency Unification through Mamba for Visual Attention Modeling
- Title(参考訳): SUM: 視覚アテンションモデリングのためのMambaによるSaliency Unification
- Authors: Alireza Hosseini, Amirhossein Kazerouni, Saeed Akhavan, Michael Brudno, Babak Taati,
- Abstract要約: 視覚アテンションモデリングは、マーケティング、マルチメディア、ロボット工学といったアプリケーションにおいて重要な役割を果たす。
従来のサリエンシ予測モデル、特にCNNやTransformersをベースとしたモデルは、大規模な注釈付きデータセットを活用することで、顕著な成功を収めている。
本稿では,Mamba と U-Net を併用した,効率の良い長距離依存性モデリング手法であるMamba (SUM) によるSaliency Unificationを提案する。
- 参考スコア(独自算出の注目度): 5.274826387442202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual attention modeling, important for interpreting and prioritizing visual stimuli, plays a significant role in applications such as marketing, multimedia, and robotics. Traditional saliency prediction models, especially those based on Convolutional Neural Networks (CNNs) or Transformers, achieve notable success by leveraging large-scale annotated datasets. However, the current state-of-the-art (SOTA) models that use Transformers are computationally expensive. Additionally, separate models are often required for each image type, lacking a unified approach. In this paper, we propose Saliency Unification through Mamba (SUM), a novel approach that integrates the efficient long-range dependency modeling of Mamba with U-Net to provide a unified model for diverse image types. Using a novel Conditional Visual State Space (C-VSS) block, SUM dynamically adapts to various image types, including natural scenes, web pages, and commercial imagery, ensuring universal applicability across different data types. Our comprehensive evaluations across five benchmarks demonstrate that SUM seamlessly adapts to different visual characteristics and consistently outperforms existing models. These results position SUM as a versatile and powerful tool for advancing visual attention modeling, offering a robust solution universally applicable across different types of visual content.
- Abstract(参考訳): 視覚刺激の解釈と優先順位付けに重要な視覚アテンションモデリングは、マーケティング、マルチメディア、ロボット工学などの応用において重要な役割を果たす。
従来のサリエンシ予測モデル、特に畳み込みニューラルネットワーク(CNN)やトランスフォーマーに基づくモデルは、大規模な注釈付きデータセットを活用することで顕著な成功を収めている。
しかし、トランスフォーマーを用いた現在の最先端(SOTA)モデルは計算コストが高い。
さらに、イメージタイプごとに別々のモデルが必要であることが多く、統一されたアプローチが欠如している。
本稿では,Mamba と U-Net の効率的な長距離依存性モデリングを統合し,多様な画像型に対する統一モデルを提供する新しいアプローチである,Mamba (SUM) によるSaliency Unificationを提案する。
新たなConditional Visual State Space (C-VSS)ブロックを使用することで、SUMは自然のシーン、Webページ、商用画像など、さまざまなイメージタイプに動的に対応し、さまざまなデータタイプにわたって普遍的な適用性を確保する。
5つのベンチマークの総合的な評価は、SUMが異なる視覚特性にシームレスに適応し、既存のモデルより一貫して優れていることを示している。
これらの結果から、SUMは視覚的アテンションモデリングを推進するための汎用的で強力なツールであり、様々な種類の視覚コンテンツに適用可能な堅牢なソリューションを提供する。
関連論文リスト
- ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z) - DualKanbaFormer: Kolmogorov-Arnold Networks and State Space Model Transformer for Multimodal Aspect-based Sentiment Analysis [0.6498237940960344]
マルチモーダルアスペクトベースの感情分析(MABSA)は、テキストと画像のような他のデータ型を組み合わせることで感情検出を強化する。
我々はKAN(Kolmogorov-Arnold Networks)とSelective State Space Model(Mamba) Transformer(DualKanbaFormer)を提案する。
我々のモデルは、2つの公開データセットに関する最新技術(SOTA)研究より優れています。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。