論文の概要: Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks
- arxiv url: http://arxiv.org/abs/2407.12588v2
- Date: Thu, 18 Jul 2024 06:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 13:41:46.918240
- Title: Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks
- Title(参考訳): ダウンストリームタスク間のロバストな自己教師付き学習のベンチマーク
- Authors: Antoni Kowalczuk, Jan Dubiński, Atiyeh Ashari Ghomi, Yi Sui, George Stein, Jiapeng Wu, Jesse C. Cresswell, Franziska Boenisch, Adam Dziedzic,
- Abstract要約: 複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。
我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。
基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
- 参考スコア(独自算出の注目度): 9.207022068713867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision models have become integral in many applications due to their unprecedented performance and versatility across downstream tasks. However, the robustness of these foundation models has primarily been explored for a single task, namely image classification. The vulnerability of other common vision tasks, such as semantic segmentation and depth estimation, remains largely unknown. We present a comprehensive empirical evaluation of the adversarial robustness of self-supervised vision encoders across multiple downstream tasks. Our attacks operate in the encoder embedding space and at the downstream task output level. In both cases, current state-of-the-art adversarial fine-tuning techniques tested only for classification significantly degrade clean and robust performance on other tasks. Since the purpose of a foundation model is to cater to multiple applications at once, our findings reveal the need to enhance encoder robustness more broadly. Our code is available at ${github.com/layer6ai-labs/ssl-robustness}$.
- Abstract(参考訳): 大規模ビジョンモデルは、ダウンストリームタスクにおける前例のない性能と汎用性のために、多くのアプリケーションにおいて不可欠なものになっている。
しかし、これらの基礎モデルの堅牢性は、主に単一のタスク、すなわち画像分類のために研究されてきた。
セマンティックセグメンテーションや深さ推定といった他の一般的な視覚タスクの脆弱性はほとんど不明である。
複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。
我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。
どちらの場合も、現在の最先端の対人微調整技術は、分類のためにのみテストされ、他のタスクにおけるクリーンでロバストなパフォーマンスは著しく低下する。
基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
私たちのコードは${github.com/layer6ai-labs/ssl-robustness}$で利用可能です。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Plain-Det: A Plain Multi-Dataset Object Detector [22.848784430833835]
Plain-Detは、新しいデータセットに対応する柔軟性、さまざまなデータセットのパフォーマンス、トレーニング効率を提供する。
13の下流データセットに対して広範な実験を行い、Plain-Detは強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-07-14T05:18:06Z) - GLID: Pre-training a Generalist Encoder-Decoder Vision Model [36.242095346942556]
本稿では,様々なダウンストリームコンピュータビジョンタスクをよりよく扱うために,ジェネラリストエンコーダ・デコーダ(GLID)事前学習法を提案する。
GLIDは、訓練済みの汎用エンコーダデコーダを、タスク固有のアーキテクチャ変更を最小限に抑えて、様々な視覚タスクに微調整することができる。
GLIDは、オブジェクト検出、画像セグメンテーション、ポーズ推定、深さ推定など、様々な視覚タスクにおける競合性能を達成する。
論文 参考訳(メタデータ) (2024-04-11T09:43:07Z) - Can the Query-based Object Detector Be Designed with Fewer Stages? [15.726619371300558]
GOLOと呼ばれる2段階のデコードパラダイムに従う新しいモデルを提案する。
マルチステージデコーダを用いた他の主流クエリベースモデルと比較すると,デコーダのステージは少なく,性能は高い。
論文 参考訳(メタデータ) (2023-09-28T09:58:52Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Fine-Grained ImageNet Classification in the Wild [0.0]
ロバストネステストは、典型的なモデル評価段階で気づかないいくつかの脆弱性やバイアスを明らかにすることができる。
本研究では,階層的知識の助けを借りて,密接に関連するカテゴリのきめ細かい分類を行う。
論文 参考訳(メタデータ) (2023-03-04T12:25:07Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z) - DeepCap: Monocular Human Performance Capture Using Weak Supervision [106.50649929342576]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-03-18T16:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。