Fugu-MT 論文翻訳(概要): ViR: Towards Efficient Vision Retention Backbones

論文の概要: ViR: Towards Efficient Vision Retention Backbones

arxiv url: http://arxiv.org/abs/2310.19731v2
Date: Fri, 26 Jan 2024 18:57:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 17:35:13.056379
Title: ViR: Towards Efficient Vision Retention Backbones
Title（参考訳）: ViR: 効率的なビジョン保持バックボーンを目指して
Authors: Ali Hatamizadeh, Michael Ranzinger, Shiyi Lan, Jose M. Alvarez, Sanja Fidler, Jan Kautz
Abstract要約: 視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。 ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
参考スコア（独自算出の注目度）: 97.93707844681893
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision Transformers (ViTs) have attracted a lot of popularity in recent years, due to their exceptional capabilities in modeling long-range spatial dependencies and scalability for large scale training. Although the training parallelism of self-attention mechanism plays an important role in retaining great performance, its quadratic complexity baffles the application of ViTs in many scenarios which demand fast inference. This effect is even more pronounced in applications in which autoregressive modeling of input features is required. In Natural Language Processing (NLP), a new stream of efforts has proposed parallelizable models with recurrent formulation that allows for efficient inference in generative applications. Inspired by this trend, we propose a new class of computer vision models, dubbed Vision Retention Networks (ViR), with dual parallel and recurrent formulations, which strike an optimal balance between fast inference and parallel training with competitive performance. In particular, ViR scales favorably for image throughput and memory consumption in tasks that require higher-resolution images due to its flexible formulation in processing large sequence lengths. The ViR is the first attempt to realize dual parallel and recurrent equivalency in a general vision backbone for recognition tasks. We have validated the effectiveness of ViR through extensive experiments with different dataset sizes and various image resolutions and achieved competitive performance. Code: https://github.com/NVlabs/ViR
Abstract（参考訳）: 視覚変換器(ViT)は、長距離空間依存のモデリングや大規模トレーニングのスケーラビリティに特有な能力を持つため、近年、多くの人気を集めている。自己注意機構の訓練並列性は、優れた性能を維持する上で重要な役割を果たすが、その二次的な複雑さは、高速な推論を必要とする多くのシナリオにおけるViTの適用を妨げている。この効果は、入力特徴の自動回帰モデリングを必要とするアプリケーションにおいてさらに顕著である。自然言語処理(nlp)において、新しい取り組みのストリームは、生成アプリケーションにおいて効率的な推論を可能にする再帰的定式化を伴う並列化モデルを提案している。そこで本研究では,この傾向に触発されたビジョン保持ネットワーク(vir)と呼ばれる新しいコンピュータビジョンモデルを提案する。特に、ViRは、大きなシーケンス長を処理する際の柔軟な定式化のため、高解像度の画像を必要とするタスクにおいて、画像スループットとメモリ消費に好適にスケールする。 ViRは、認識タスクのための一般的なビジョンバックボーンにおいて、並列性と繰り返しの等価性を実現する最初の試みである。異なるデータセットサイズと様々な画像解像度を用いた広範囲な実験により、ViRの有効性を検証し、競争性能を達成した。コード:https://github.com/NVlabs/ViR

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文参考訳（メタデータ） (2025-04-21T03:00:17Z)
ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models [39.520825264698374]
視覚変換器(ViT)は、グローバルな自己注意を通じて顕著な進歩を遂げてきたが、その二次的な複雑さは高解像度入力では禁止される可能性がある。本稿では、リッチなViT表現を線形時間再帰型モデルに変換するクロスアーキテクチャ蒸留フレームワークであるViT-Linearizerについて述べる。この結果から,RNNに基づく大規模視覚タスクの優れた実現可能性を示し,理論的効率性と実世界の実践とのギャップを埋めることができた。
論文参考訳（メタデータ） (2025-03-30T15:35:24Z)
VisionGRU: A Linear-Complexity RNN Model for Efficient Image Analysis [8.10783983193165]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は画像解析の主流モデルである。本稿では,効率的な画像分類のための新しいRNNアーキテクチャであるVisionGRUを紹介する。
論文参考訳（メタデータ） (2024-12-24T05:27:11Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.0]
iiANET(Inception Inspired Attention Network)は,複雑な画像の長距離依存性を捉えるために設計された,効率的なハイブリッドモデルである。基本的なビルディングブロックであるiiABlockはグローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースの畳み込み)、拡張畳み込みを並列に統合する。各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
論文参考訳（メタデータ） (2024-07-10T12:39:02Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
CViT: Continuous Vision Transformer for Operator Learning [24.1795082775376]
連続ビジョントランスフォーマー(Continuous Vision Transformer、CViT)は、コンピュータビジョンの進歩を活用して複雑な物理システムを学ぶ際の課題に対処する、新しい神経オペレーターアーキテクチャである。 CViTは、ビジョントランスフォーマーエンコーダ、新しいグリッドベースの座標埋め込み、マルチスケール依存関係を効果的にキャプチャするクエリワイドのクロスアテンション機構を組み合わせたものである。本研究では, 流体力学, 気候モデル, 反応拡散過程を含む多種多様な偏微分方程式(PDE)システムにおけるCViTの有効性を実証する。
論文参考訳（メタデータ） (2024-05-22T21:13:23Z)
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文参考訳（メタデータ） (2024-03-04T18:46:20Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Sequencer: Deep LSTM for Image Classification [0.0]
最近のコンピュータビジョン研究において、ViT(Vision Transformer)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした。提案するSequencerは,ViTに代わる,斬新で競争力のあるアーキテクチャである。その単純さにもかかわらず、いくつかの実験はSequencerが素晴らしい性能を発揮することを示した。
論文参考訳（メタデータ） (2022-05-04T09:47:46Z)
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文参考訳（メタデータ） (2021-03-29T06:23:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。