論文の概要: VIBES -- Vision Backbone Efficient Selection
- arxiv url: http://arxiv.org/abs/2410.08592v1
- Date: Fri, 11 Oct 2024 07:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 23:04:57.356663
- Title: VIBES -- Vision Backbone Efficient Selection
- Title(参考訳): VIBES -- ビジョンバックボーン効率の良い選択
- Authors: Joris Guerin, Shray Bansal, Amirreza Shaban, Paulo Mann, Harshvardhan Gazula,
- Abstract要約: 視覚バックボーン効率選択 (VIBES) を導入する。
VIBESは、単一のGPU上で1時間以内の限られた検索予算でも、ジェネリックベンチマークから選択したバックボーンよりも優れたバックボーンを識別することができる。
- 参考スコア(独自算出の注目度): 2.877753005139331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work tackles the challenge of efficiently selecting high-performance pre-trained vision backbones for specific target tasks. Although exhaustive search within a finite set of backbones can solve this problem, it becomes impractical for large datasets and backbone pools. To address this, we introduce Vision Backbone Efficient Selection (VIBES), which aims to quickly find well-suited backbones, potentially trading off optimality for efficiency. We propose several simple yet effective heuristics to address VIBES and evaluate them across four diverse computer vision datasets. Our results show that these approaches can identify backbones that outperform those selected from generic benchmarks, even within a limited search budget of one hour on a single GPU. We reckon VIBES marks a paradigm shift from benchmarks to task-specific optimization.
- Abstract(参考訳): この作業は、特定の目標タスクに対して、高性能な事前学習された視覚バックボーンを効率的に選択する課題に対処する。
有限個のバックボーン内の徹底的な探索はこの問題を解決できるが、大規模なデータセットやバックボーンプールでは現実的ではない。
この問題を解決するために、Vision Backbone Efficient Selection (VIBES)を導入します。
我々は、VIBESに対処するための単純で効果的なヒューリスティックをいくつか提案し、それらを4つのコンピュータビジョンデータセットで評価する。
提案手法は,1つのGPU上での検索予算が1時間以内であっても,ジェネリックベンチマークより優れたバックボーンを同定できることを示す。
VIBESはベンチマークからタスク固有の最適化へのパラダイムシフトだと考えています。
関連論文リスト
- Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - SkeletonX: Data-Efficient Skeleton-based Action Recognition via Cross-sample Feature Aggregation [34.65359766672547]
本稿では,最小限のデータによる効率的な適応を実現するために,ワンショットおよび限定的な学習環境について検討する。
我々は、既存のGCNベースのスケルトンアクション認識器とシームレスに統合される軽量なトレーニングパイプラインであるSkeletonXを紹介する。
従来の最先端の手法を1ショット設定で上回り、パラメータの1/10しかなく、FLOPもはるかに少ない。
論文 参考訳(メタデータ) (2025-04-16T04:01:42Z) - RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Patch Ranking: Efficient CLIP by Learning to Rank Local Patches [11.225834286969283]
ViT効率を向上する現在の戦略はパッチトークンのプルーニングに重点を置いているが、CLIPのマルチモーダルな性質に対処するには不足している。
我々は「黄金ランキング」を確立するための欲求探索手法を提案し、このランキングを近似するために特別に訓練された軽量な予測器を導入する。
CLIPのViTではパッチトークンの40%を削減できたが、7つのデータセットの平均精度損失は0.3に過ぎなかった。
論文 参考訳(メタデータ) (2024-09-22T22:04:26Z) - AMAES: Augmented Masked Autoencoder Pretraining on Public Brain MRI Data for 3D-Native Segmentation [2.0749231618270803]
本研究では,3次元セマンティックセグメンテーションモデルの自己教師付き事前学習が大規模・ドメイン固有データセットに与える影響について検討した。
我々は、公開ソースから44,756個の脳MRIボリュームのデータセットであるBRAINS-45Kを紹介した。
論文 参考訳(メタデータ) (2024-08-01T15:27:48Z) - Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Low-resource finetuning of foundation models beats state-of-the-art in
histopathology [3.4577420145036375]
病理組織学データの特徴抽出器として最も人気のある視覚基盤モデルをベンチマークする。
データセットに応じて、単一のGPU上のファンデーションモデルをわずか2時間から3日で微調整することで、最先端の機能抽出器にマッチまたは性能を向上することができる。
これは、大量のリソースとデータセットを持つ機関だけが特徴抽出器を訓練できる、現在の状態からかなり変化している。
論文 参考訳(メタデータ) (2024-01-09T18:46:59Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks [139.3768582233067]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T18:23:58Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Unsupervised Pre-training for Person Re-identification [90.98552221699508]
大規模無ラベル人物再識別(Re-ID)データセットLUPersonを提案する。
学習者のRe-ID特徴表現の一般化能力を向上させるために,教師なし事前学習を初めて行おうとする。
論文 参考訳(メタデータ) (2020-12-07T14:48:26Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - IVFS: Simple and Efficient Feature Selection for High Dimensional
Topology Preservation [33.424663018395684]
本稿では,サンプル類似性保存を向上する簡易かつ効果的な特徴選択アルゴリズムを提案する。
提案アルゴリズムは、全データの対距離と位相パターンを適切に保存することができる。
論文 参考訳(メタデータ) (2020-04-02T23:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。