論文の概要: Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2505.02075v1
- Date: Sun, 04 May 2025 11:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.414423
- Title: Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation
- Title(参考訳): インタラクティブセグメンテーションを用いた視覚基礎モデルのベンチマーク機能アップサンプリング手法
- Authors: Volodymyr Havrylov, Haiwen Huang, Dan Zhang, Andreas Geiger,
- Abstract要約: Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
- 参考スコア(独自算出の注目度): 24.531539125814877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Foundation Models (VFMs) are large-scale, pre-trained models that serve as general-purpose backbones for various computer vision tasks. As VFMs' popularity grows, there is an increasing interest in understanding their effectiveness for dense prediction tasks. However, VFMs typically produce low-resolution features, limiting their direct applicability in this context. One way to tackle this limitation is by employing a task-agnostic feature upsampling module that refines VFM features resolution. To assess the effectiveness of this approach, we investigate Interactive Segmentation (IS) as a novel benchmark for evaluating feature upsampling methods on VFMs. Due to its inherent multimodal input, consisting of an image and a set of user-defined clicks, as well as its dense mask output, IS creates a challenging environment that demands comprehensive visual scene understanding. Our benchmarking experiments show that selecting appropriate upsampling strategies significantly improves VFM features quality. The code is released at https://github.com/havrylovv/iSegProbe
- Abstract(参考訳): Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
VFMの人気が高まるにつれて、密集した予測タスクに対するその有効性を理解することへの関心が高まっている。
しかしながら、VFMは一般的に低解像度の特徴を生み出すため、この文脈での直接適用性は制限される。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
提案手法の有効性を評価するため,VFMにおける機能アップサンプリング手法を評価するための新しいベンチマークとして,Interactive Segmentation (IS) について検討する。
画像とユーザ定義のクリックセットと、その密集したマスク出力からなる本質的にマルチモーダルな入力のため、ISは、包括的な視覚的シーン理解を必要とする困難な環境を創出する。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
コードはhttps://github.com/havrylovv/iSegProbeで公開されている。
関連論文リスト
- LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models [27.379438040350188]
機能アップサンプリングは、この問題に対処するための有望な方向を提供する。
本稿では,高分解能画像を座標と低分解能VFM特徴と統合した座標ベースのクロスアテンション変換器を提案する。
提案手法は, 細かな細部を効果的に捉え, 様々な入力や特徴の分解能に柔軟に適用する。
論文 参考訳(メタデータ) (2025-04-18T18:46:08Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - How to Benchmark Vision Foundation Models for Semantic Segmentation? [1.8570591025615457]
本稿では,視覚基盤モデル(VFM)をセマンティックセグメンテーションのためにベンチマークする方法について検討する。
様々なVFMを様々な設定で微調整し、個々の設定がパフォーマンスランキングとトレーニング時間に与える影響を評価する。
データセットとドメインシフト間でのパフォーマンスランキングが異なるため、トレーニングと評価に複数のデータセットを使用することも推奨されている。
論文 参考訳(メタデータ) (2024-04-18T13:27:29Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - EnfoMax: Domain Entropy and Mutual Information Maximization for Domain
Generalized Face Anti-spoofing [0.0]
Face Anti-Spoofing (FAS) 法はドメイン内の設定でよく機能する。
ドメイン一般化(DG)法はFASにおいて注目されている。
本稿では,情報理論を用いてドメイン間FASタスクを解析するEnfoMaxフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-17T03:54:18Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。