Fugu-MT 論文翻訳(概要): VIBES -- Vision Backbone Efficient Selection

論文の概要: VIBES -- Vision Backbone Efficient Selection

arxiv url: http://arxiv.org/abs/2410.08592v1
Date: Fri, 11 Oct 2024 07:39:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 23:04:57.356663
Title: VIBES -- Vision Backbone Efficient Selection
Title（参考訳）: VIBES -- ビジョンバックボーン効率の良い選択
Authors: Joris Guerin, Shray Bansal, Amirreza Shaban, Paulo Mann, Harshvardhan Gazula,
Abstract要約: 視覚バックボーン効率選択 (VIBES) を導入する。 VIBESは、単一のGPU上で1時間以内の限られた検索予算でも、ジェネリックベンチマークから選択したバックボーンよりも優れたバックボーンを識別することができる。
参考スコア（独自算出の注目度）: 2.877753005139331
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work tackles the challenge of efficiently selecting high-performance pre-trained vision backbones for specific target tasks. Although exhaustive search within a finite set of backbones can solve this problem, it becomes impractical for large datasets and backbone pools. To address this, we introduce Vision Backbone Efficient Selection (VIBES), which aims to quickly find well-suited backbones, potentially trading off optimality for efficiency. We propose several simple yet effective heuristics to address VIBES and evaluate them across four diverse computer vision datasets. Our results show that these approaches can identify backbones that outperform those selected from generic benchmarks, even within a limited search budget of one hour on a single GPU. We reckon VIBES marks a paradigm shift from benchmarks to task-specific optimization.
Abstract（参考訳）: この作業は、特定の目標タスクに対して、高性能な事前学習された視覚バックボーンを効率的に選択する課題に対処する。有限個のバックボーン内の徹底的な探索はこの問題を解決できるが、大規模なデータセットやバックボーンプールでは現実的ではない。この問題を解決するために、Vision Backbone Efficient Selection (VIBES)を導入します。我々は、VIBESに対処するための単純で効果的なヒューリスティックをいくつか提案し、それらを4つのコンピュータビジョンデータセットで評価する。提案手法は,1つのGPU上での検索予算が1時間以内であっても,ジェネリックベンチマークより優れたバックボーンを同定できることを示す。 VIBESはベンチマークからタスク固有の最適化へのパラダイムシフトだと考えています。

関連論文リスト

Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文参考訳（メタデータ） (2024-12-02T18:59:53Z)
Patch Ranking: Efficient CLIP by Learning to Rank Local Patches [11.225834286969283]
ViT効率を向上する現在の戦略はパッチトークンのプルーニングに重点を置いているが、CLIPのマルチモーダルな性質に対処するには不足している。我々は「黄金ランキング」を確立するための欲求探索手法を提案し、このランキングを近似するために特別に訓練された軽量な予測器を導入する。 CLIPのViTではパッチトークンの40%を削減できたが、7つのデータセットの平均精度損失は0.3に過ぎなかった。
論文参考訳（メタデータ） (2024-09-22T22:04:26Z)
Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文参考訳（メタデータ） (2024-05-27T12:59:35Z)
Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文参考訳（メタデータ） (2024-03-23T13:22:36Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
Unveiling Backbone Effects in CLIP: Exploring Representational Synergies and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文参考訳（メタデータ） (2023-12-22T03:01:41Z)
Compactness Score: A Fast Filter Method for Unsupervised Feature Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文参考訳（メタデータ） (2022-01-31T13:01:37Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
IVFS: Simple and Efficient Feature Selection for High Dimensional Topology Preservation [33.424663018395684]
本稿では,サンプル類似性保存を向上する簡易かつ効果的な特徴選択アルゴリズムを提案する。提案アルゴリズムは、全データの対距離と位相パターンを適切に保存することができる。
論文参考訳（メタデータ） (2020-04-02T23:05:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。