論文の概要: Hardware Resilience Properties of Text-Guided Image Classifiers
- arxiv url: http://arxiv.org/abs/2311.14062v1
- Date: Thu, 23 Nov 2023 15:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:18:04.742060
- Title: Hardware Resilience Properties of Text-Guided Image Classifiers
- Title(参考訳): テキストガイド画像分類器のハードウェアレジリエンス特性
- Authors: Syed Talal Wasim, Kabila Haile Saboka, Abdulrahman Mahmoud, Salman
Khan, David Brooks, Gu-Yeon Wei
- Abstract要約: 本稿では,過渡的ハードウェアエラーに直面した配置中の画像分類モデルの信頼性を高める新しい手法を提案する。
GPT-3から派生したリッチテキスト埋め込みをクラス毎の質問プロンプトとCLIP事前訓練テキストエンコーダで使用する。
当社のアプローチは、ハードウェアの信頼性(および最大14倍)が、最も重要なレイヤのさまざまなアーキテクチャで平均5.5倍に向上します。
- 参考スコア(独自算出の注目度): 15.787551066303804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a novel method to enhance the reliability of image
classification models during deployment in the face of transient hardware
errors. By utilizing enriched text embeddings derived from GPT-3 with question
prompts per class and CLIP pretrained text encoder, we investigate their impact
as an initialization for the classification layer. Our approach achieves a
remarkable $5.5\times$ average increase in hardware reliability (and up to 14x)
across various architectures in the most critical layer, with minimal accuracy
drop (0.3% on average) compared to baseline PyTorch models. Furthermore, our
method seamlessly integrates with any image classification backbone, showcases
results across various network architectures, decreases parameter and FLOPs
overhead, and follows a consistent training recipe. This research offers a
practical and efficient solution to bolster the robustness of image
classification models against hardware failures, with potential implications
for future studies in this domain. Our code and models are released at
https://github.com/TalalWasim/TextGuidedResilience.
- Abstract(参考訳): 本稿では,過渡的ハードウェアエラーに直面した配置中の画像分類モデルの信頼性を高める新しい手法を提案する。
GPT-3から派生したリッチテキスト埋め込みをクラスごとの質問プロンプトとCLIP事前訓練テキストエンコーダを用いて,分類層の初期化としての影響を検討する。
当社のアプローチは,PyTorchのベースラインモデルと比較して,最小限の精度低下(平均0.3%)で,さまざまなアーキテクチャにおけるハードウェア信頼性(最大14倍)の平均的な向上を実現している。
さらに,任意の画像分類バックボーンとシームレスに統合し,様々なネットワークアーキテクチャにまたがる結果を表示し,パラメータとフラップのオーバーヘッドを低減し,一貫したトレーニングレシピに従う。
この研究は、ハードウェア障害に対する画像分類モデルのロバスト性を強化するための、実用的で効率的なソリューションを提供する。
私たちのコードとモデルはhttps://github.com/talalwasim/textguidedresilienceでリリースしています。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - An Ordinal Regression Framework for a Deep Learning Based Severity
Assessment for Chest Radiographs [50.285682227571996]
本稿では,順序回帰問題をモデル,対象関数,分類関数の3つの部分に分割する枠組みを提案する。
符号化の選択が性能に強く影響し,コーエンのカッパの選択重み付けに依存することを示す。
論文 参考訳(メタデータ) (2024-02-08T14:00:45Z) - Benchmarking Robustness to Text-Guided Corruptions [0.0]
拡散モデルを用いて異なる領域の画像を編集する。
我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。
畳み込みモデルはトランスフォーマーアーキテクチャよりも堅牢である。
論文 参考訳(メタデータ) (2023-04-06T09:40:02Z) - Fine-Grained ImageNet Classification in the Wild [0.0]
ロバストネステストは、典型的なモデル評価段階で気づかないいくつかの脆弱性やバイアスを明らかにすることができる。
本研究では,階層的知識の助けを借りて,密接に関連するカテゴリのきめ細かい分類を行う。
論文 参考訳(メタデータ) (2023-03-04T12:25:07Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Reconciliation of Statistical and Spatial Sparsity For Robust Image and
Image-Set Classification [27.319334479994787]
分類のための画像や画像セットデータをモデル化するために,textitJ3Sと呼ばれる新しい統計空間スパース表現を提案する。
本稿では,J3Sモデルに基づく結合スパース符号化問題の解法を提案する。
実験の結果,提案手法はFMD, UIUC, ETH-80, YTCデータベース上での競合手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-06-01T06:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。