論文の概要: MMViT: Multiscale Multiview Vision Transformers
- arxiv url: http://arxiv.org/abs/2305.00104v1
- Date: Fri, 28 Apr 2023 21:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 17:08:31.746005
- Title: MMViT: Multiscale Multiview Vision Transformers
- Title(参考訳): mmvit:マルチスケール・マルチビュー・ビジョントランスフォーマー
- Authors: Yuchen Liu, Natasha Ong, Kaiyan Peng, Bo Xiong, Qifan Wang, Rui Hou,
Madian Khabsa, Kaiyue Yang, David Liu, Donald S. Williamson, Hanchao Yu
- Abstract要約: 本稿では,マルチスケール・マルチビュー・ビジョン・トランスフォーマ (MMViT) を提案する。
我々のモデルは入力信号の異なるビューを符号化し、複数のチャンネル解像度の特徴段階を構築し、異なる解像度の入力の複数のビューを並列に処理する。
本稿では,MMViTが音声および画像の分類作業に有効であることを示す。
- 参考スコア(独自算出の注目度): 36.93551299085767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Multiscale Multiview Vision Transformers (MMViT), which introduces
multiscale feature maps and multiview encodings to transformer models. Our
model encodes different views of the input signal and builds several
channel-resolution feature stages to process the multiple views of the input at
different resolutions in parallel. At each scale stage, we use a
cross-attention block to fuse information across different views. This enables
the MMViT model to acquire complex high-dimensional representations of the
input at different resolutions. The proposed model can serve as a backbone
model in multiple domains. We demonstrate the effectiveness of MMViT on audio
and image classification tasks, achieving state-of-the-art results.
- Abstract(参考訳): 本稿では,マルチスケール機能マップとマルチビューエンコーディングをトランスフォーマモデルに導入するマルチスケールマルチビュービジョントランスフォーマ(mmvit)を提案する。
我々のモデルは入力信号の異なるビューを符号化し、複数のチャンネル解像度の特徴段階を構築し、異なる解像度の入力の複数のビューを並列に処理する。
各スケールステージでは、クロスアテンションブロックを使用して、異なるビューに情報を融合します。
これによりMMViTモデルは異なる解像度で入力の複雑な高次元表現を得ることができる。
提案モデルは複数のドメインでバックボーンモデルとして機能する。
本稿では,MMViTが音声および画像の分類作業に有効であることを示す。
関連論文リスト
- Multiscaled Multi-Head Attention-based Video Transformer Network for Hand Gesture Recognition [5.311735227179715]
MsMHA-VTN(Multiscaled Multi-Head Attention Video Transformer Network)を提案する。
マルチスケール特徴のピラミッド階層をトランスフォーマーのマルチスケールヘッドアテンションモデルを用いて抽出する。
提案されたMsMHA-VTNの総合精度は88.22%、NVGestureとBrareoのデータセットは99.10%である。
論文 参考訳(メタデータ) (2025-01-01T19:26:32Z) - A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - MVTN: A Multiscale Video Transformer Network for Hand Gesture Recognition [5.311735227179715]
ダイナミックハンドジェスチャ認識のための新しいMultiscale Video Transformer Network(MVTN)を提案する。
提案モデルでは,手動動作における細部やコンテキストの多様なレベルを捉えるために,マルチスケールの特徴階層が組み込まれている。
実験により,提案したMVTNは計算量やパラメータを少なくして最先端の計算結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-05T19:55:38Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。