論文の概要: FeatSharp: Your Vision Model Features, Sharper
- arxiv url: http://arxiv.org/abs/2502.16025v1
- Date: Sat, 22 Feb 2025 00:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:26.096724
- Title: FeatSharp: Your Vision Model Features, Sharper
- Title(参考訳): FeatSharp: ビジョンモデル機能、Sharper
- Authors: Mike Ranzinger, Greg Heinrich, Pavlo Molchanov, Jan Kautz, Bryan Catanzaro, Andrew Tao,
- Abstract要約: 低解像度ビジョンエンコーダの特徴マップを協調的に安価にアップサンプリングする新しい手法を提案する。
本稿では,この手法がコア認識タスクおよび集約モデル(RADIO)トレーニングにおいて有効であることを示す。
- 参考スコア(独自算出の注目度): 64.25786703202414
- License:
- Abstract: The feature maps of vision encoders are fundamental to myriad modern AI tasks, ranging from core perception algorithms (e.g. semantic segmentation, object detection, depth perception, etc.) to modern multimodal understanding in vision-language models (VLMs). Currently, in computer vision, the frontier of general purpose vision backbones are Vision Transformers (ViT), typically trained using contrastive loss (e.g. CLIP). A key problem with most off-the-shelf ViTs, particularly CLIP, is that these models are inflexibly low resolution. Most run at 224x224px, while the "high resolution" versions are around 378-448px, but still inflexible. We introduce a novel method to coherently and cheaply upsample the feature maps of low-res vision encoders while picking up on fine-grained details that would otherwise be lost due to resolution. We demonstrate the effectiveness of this approach on core perception tasks as well as within agglomerative model (RADIO) training as a way of providing richer targets for distillation.
- Abstract(参考訳): 視覚エンコーダの特徴マップは、コア認識アルゴリズム(例えば、セマンティックセグメンテーション、オブジェクト検出、深度知覚など)から、視覚言語モデル(VLM)における現代のマルチモーダル理解まで、多岐にわたる現代のAIタスクの基本である。
現在、コンピュータビジョンでは、汎用視覚バックボーンのフロンティアはビジョントランスフォーマー(ViT)であり、典型的にはコントラッシブ・ロス(例えばCLIP)を用いて訓練されている。
市販のViT、特にCLIPの主な問題は、これらのモデルが柔軟に低解像度であることである。
たいていは224x224pxで動作するが、「高解像度」バージョンは378-448px程度だが、まだ柔軟性がない。
本稿では,低解像度ビジョンエンコーダの特徴マップを,解像度によって失われるような細粒度の詳細を拾い上げながら,整合的に安価かつ安価にアップサンプリングする手法を提案する。
本研究は, 蒸留のためのより豊かなターゲットを提供する手段として, コア認識タスクおよび集約モデル(RADIO)トレーニングにおけるこのアプローチの有効性を実証する。
関連論文リスト
- HyperCLIP: Adapting Vision-Language models with Hypernetworks [43.23792024551352]
我々は、ハイパーネットワークと共に小さな画像エンコーダを使用する、HyperCLIPと呼ばれる視覚言語アーキテクチャを提案する。
モデルの3つのコンポーネント(ハイパーネットワーク、イメージエンコーダ、テキストエンコーダ)はすべて、共同でエンドツーエンドでトレーニングされている。
HyperCLIPは、小さなイメージエンコーダを持つSigLIPトレーニングモデルのゼロショット精度をImageNetで最大3%、CIFAR-100で5%向上し、トレーニングスループットのオーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2024-12-21T21:19:08Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Fill in the blanks: Rethinking Interpretability in vision [0.0]
我々は、新しい視点から視覚モデルの説明可能性を再考し、トレーニング中にモデルが学習した一般的な入力構造を探索する。
標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、追加のモデルに依存しない説明可能性ツールとして解釈できる。
論文 参考訳(メタデータ) (2024-11-15T15:31:06Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。