論文の概要: Learning 1D Causal Visual Representation with De-focus Attention Networks
- arxiv url: http://arxiv.org/abs/2406.04342v1
- Date: Thu, 6 Jun 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:11:04.273429
- Title: Learning 1D Causal Visual Representation with De-focus Attention Networks
- Title(参考訳): De-focus Attention Networks を用いた1次元因果視覚表現の学習
- Authors: Chenxin Tao, Xizhou Zhu, Shiqian Su, Lewei Lu, Changyao Tian, Xuan Luo, Gao Huang, Hongsheng Li, Yu Qiao, Jie Zhou, Jifeng Dai,
- Abstract要約: 本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
- 参考スコア(独自算出の注目度): 108.72931590504406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modality differences have led to the development of heterogeneous architectures for vision and language models. While images typically require 2D non-causal modeling, texts utilize 1D causal modeling. This distinction poses significant challenges in constructing unified multi-modal models. This paper explores the feasibility of representing images using 1D causal modeling. We identify an "over-focus" issue in existing 1D causal vision models, where attention overly concentrates on a small proportion of visual tokens. The issue of "over-focus" hinders the model's ability to extract diverse visual features and to receive effective gradients for optimization. To address this, we propose De-focus Attention Networks, which employ learnable bandpass filters to create varied attention patterns. During training, large and scheduled drop path rates, and an auxiliary loss on globally pooled features for global understanding tasks are introduced. These two strategies encourage the model to attend to a broader range of tokens and enhance network optimization. Extensive experiments validate the efficacy of our approach, demonstrating that 1D causal visual representation can perform comparably to 2D non-causal representation in tasks such as global perception, dense prediction, and multi-modal understanding. Code is released at https://github.com/OpenGVLab/De-focus-Attention-Networks.
- Abstract(参考訳): モダリティの違いは、視覚と言語モデルのための異種アーキテクチャの開発につながった。
画像は通常2D非因果モデリングを必要とするが、テキストは1D因果モデリングを利用する。
この区別は、統合マルチモーダルモデルを構築する上で大きな課題となる。
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
既存の1次元因果視覚モデルでは,少数の視覚トークンに過度に注目が集中する「過剰焦点」問題を特定する。
オーバーフォーカス」の問題は、モデルが様々な視覚的特徴を抽出し、最適化のための効果的な勾配を受け取る能力を妨げている。
これを解決するために,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
トレーニング中、大規模で計画的なドロップパスレート、グローバル理解タスクのためのグローバルプール機能への補助的な損失が導入される。
これらの2つの戦略は、モデルが幅広いトークンに対応し、ネットワーク最適化を強化することを奨励する。
広汎な実験により本手法の有効性が検証され,大域的知覚や密接な予測,マルチモーダル理解といったタスクにおいて,1次元因果的視覚表現が2次元非因果的表現と相容れないことが実証された。
コードはhttps://github.com/OpenGVLab/De-focus-Attention-Networksで公開されている。
関連論文リスト
- Interpreting Low-level Vision Models with Causal Effect Maps [25.07089157448049]
低レベル視覚モデルを理解するために因果理論を導入する。
因果効果マップ(CEM)と呼ばれるモデル/タスク非依存の手法を提案する。
CEMは、正か負かのいずれかの効果で入力と出力の関係を可視化し、定量化する。
論文 参考訳(メタデータ) (2024-07-29T08:33:32Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Few-Shot Learning with Visual Distribution Calibration and Cross-Modal
Distribution Alignment [47.53887941065894]
事前訓練された視覚言語モデルは、数ショット学習に関する多くの研究にインスピレーションを与えている。
少数の訓練画像だけで、視覚的特徴分布は画像のクラス非関連情報によって容易に妨げられる。
本稿では,画像の空間的注意マップを生成するSelective Attackモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-19T05:45:17Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。