論文の概要: FeatSharp: Your Vision Model Features, Sharper
- arxiv url: http://arxiv.org/abs/2502.16025v2
- Date: Wed, 02 Jul 2025 18:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:13.590338
- Title: FeatSharp: Your Vision Model Features, Sharper
- Title(参考訳): FeatSharp: ビジョンモデル機能、Sharper
- Authors: Mike Ranzinger, Greg Heinrich, Pavlo Molchanov, Jan Kautz, Bryan Catanzaro, Andrew Tao,
- Abstract要約: 低解像度ビジョンエンコーダの特徴マップを協調的に安価にアップサンプリングする新しい手法を提案する。
本稿では,この手法がコア認識タスクや凝集モデルトレーニングにおいて有効であることを示す。
- 参考スコア(独自算出の注目度): 64.25786703202414
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The feature maps of vision encoders are fundamental to myriad modern AI tasks, ranging from core perception algorithms (e.g. semantic segmentation, object detection, depth perception, etc.) to modern multimodal understanding in vision-language models (VLMs). Currently, in computer vision, the frontier of general purpose vision backbones is Vision Transformers (ViT), typically trained using contrastive loss (e.g. CLIP). A key problem with most off-the-shelf ViTs, particularly CLIP, is that these models are inflexibly low resolution. Most run at $224 \times 224$px, while the "high-resolution" versions are around $378-448$px, but still inflexible. We introduce a novel method to coherently and cheaply upsample the feature maps of low-resolution vision encoders while picking up on fine-grained details that would otherwise be lost due to resolution. We demonstrate the effectiveness of this approach on core perception tasks as well as within agglomerative model training using RADIO as a way of providing richer targets for distillation. Code available at https://github.com/NVlabs/FeatSharp .
- Abstract(参考訳): 視覚エンコーダの特徴マップは、コア認識アルゴリズム(例えば、セマンティックセグメンテーション、オブジェクト検出、深度知覚など)から、視覚言語モデル(VLM)における現代のマルチモーダル理解まで、多岐にわたる現代のAIタスクの基本である。
現在、コンピュータビジョンでは、汎用視覚バックボーンのフロンティアはViT(Vision Transformers)であり、通常は対照的な損失(例えばCLIP)を用いて訓練されている。
市販のViT、特にCLIPの主な問題は、これらのモデルが柔軟に低解像度であることである。
たいていは224ドル(224ドル)で走るが、「高解像度」バージョンは378ドル-448ドル(378ドル)程度だが、まだ柔軟性がない。
本稿では,低解像度ビジョンエンコーダの特徴マップを,解像度によって失われるような細かな細部を拾い上げながら,整合的に安価かつ安価にアップサンプリングする手法を提案する。
本稿では,この手法がコア認識タスクおよびRadioを用いた凝集モデルトレーニングにおいて,よりリッチな蒸留ターゲットを提供する方法として有効であることを示す。
コードはhttps://github.com/NVlabs/FeatSharpで公開されている。
関連論文リスト
- Rapid Salient Object Detection with Difference Convolutional Neural Networks [49.838283141381716]
本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。
SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
論文 参考訳(メタデータ) (2025-07-01T20:41:05Z) - Image Reconstruction as a Tool for Feature Analysis [2.0249250133493195]
本稿では,画像再構成による視覚特徴の解釈のための新しい手法を提案する。
画像ベースタスクで事前訓練されたエンコーダは、非画像タスクで訓練されたものよりも、はるかに多くの画像情報を保持することを示す。
我々のアプローチはどんな視覚エンコーダにも適用でき、特徴空間の内部構造に光を遮ることができる。
論文 参考訳(メタデータ) (2025-06-09T14:32:18Z) - HyperCLIP: Adapting Vision-Language models with Hypernetworks [43.23792024551352]
我々は、ハイパーネットワークと共に小さな画像エンコーダを使用する、HyperCLIPと呼ばれる視覚言語アーキテクチャを提案する。
モデルの3つのコンポーネント(ハイパーネットワーク、イメージエンコーダ、テキストエンコーダ)はすべて、共同でエンドツーエンドでトレーニングされている。
HyperCLIPは、小さなイメージエンコーダを持つSigLIPトレーニングモデルのゼロショット精度をImageNetで最大3%、CIFAR-100で5%向上し、トレーニングスループットのオーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2024-12-21T21:19:08Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Fill in the blanks: Rethinking Interpretability in vision [0.0]
我々は、新しい視点から視覚モデルの説明可能性を再考し、トレーニング中にモデルが学習した一般的な入力構造を探索する。
標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、追加のモデルに依存しない説明可能性ツールとして解釈できる。
論文 参考訳(メタデータ) (2024-11-15T15:31:06Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Addressing a fundamental limitation in deep vision models: lack of spatial attention [43.37813040320147]
この写本の目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。
人間の視覚とは異なり、深層視覚モデルは画像全体を処理する。
我々は、次世代のより効率的な視覚モデルに道を開く2つのソリューションを提案する。
論文 参考訳(メタデータ) (2024-07-01T20:21:09Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - Towards Point Cloud Compression for Machine Perception: A Simple and Strong Baseline by Learning the Octree Depth Level Predictor [12.510990055381452]
本稿では,人間と機械の両方の視覚タスクを同時に処理するポイントクラウド圧縮フレームワークを提案する。
我々のフレームワークは、異なるマシンビジョンタスクのサブセットのみを使用して、スケーラブルなビットストリームを学習し、ビットレートを節約します。
新しいオクツリー深さレベルの予測器は、点雲から構築された各オクツリーの最適深さレベルを適応的に決定する。
論文 参考訳(メタデータ) (2024-06-02T16:13:57Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。