論文の概要: Benchmarking Robustness to Text-Guided Corruptions
- arxiv url: http://arxiv.org/abs/2304.02963v2
- Date: Mon, 31 Jul 2023 09:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 23:05:53.799096
- Title: Benchmarking Robustness to Text-Guided Corruptions
- Title(参考訳): テキストガイド汚職に対するロバスト性のベンチマーク
- Authors: Mohammadreza Mofayezi and Yasamin Medghalchi
- Abstract要約: 拡散モデルを用いて異なる領域の画像を編集する。
我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。
畳み込みモデルはトランスフォーマーアーキテクチャよりも堅牢である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the robustness of image classifiers to text-guided
corruptions. We utilize diffusion models to edit images to different domains.
Unlike other works that use synthetic or hand-picked data for benchmarking, we
use diffusion models as they are generative models capable of learning to edit
images while preserving their semantic content. Thus, the corruptions will be
more realistic and the comparison will be more informative. Also, there is no
need for manual labeling and we can create large-scale benchmarks with less
effort. We define a prompt hierarchy based on the original ImageNet hierarchy
to apply edits in different domains. As well as introducing a new benchmark we
try to investigate the robustness of different vision models. The results of
this study demonstrate that the performance of image classifiers decreases
significantly in different language-based corruptions and edit domains. We also
observe that convolutional models are more robust than transformer
architectures. Additionally, we see that common data augmentation techniques
can improve the performance on both the original data and the edited images.
The findings of this research can help improve the design of image classifiers
and contribute to the development of more robust machine learning systems. The
code for generating the benchmark is available at
https://github.com/ckoorosh/RobuText.
- Abstract(参考訳): 本研究は,テキスト誘導汚職に対する画像分類器の堅牢性について検討する。
拡散モデルを用いて異なる領域の画像を編集する。
合成データや手書きデータを用いてベンチマークを行う他の研究とは異なり、画像の編集とセマンティックなコンテンツの保存を学習できる生成モデルとして拡散モデルを用いる。
したがって、汚職はより現実的で、比較はより情報的になるだろう。
また、手動のラベリングは不要で、より少ない労力で大規模なベンチマークを作成できます。
我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。
新たなベンチマークを導入するだけでなく,さまざまなビジョンモデルの堅牢性についても検討する。
本研究は, 画像分類器の性能が, 異なる言語に基づく腐敗や編集領域において著しく低下することを示す。
また,畳み込みモデルがトランスフォーマーアーキテクチャよりも堅牢であることも観察した。
さらに、共通データ拡張技術は、元のデータと編集された画像の両方のパフォーマンスを向上させることができる。
本研究は,画像分類器の設計の改善に寄与し,より堅牢な機械学習システムの開発に寄与する。
ベンチマークを生成するコードはhttps://github.com/ckoorosh/robutextで入手できる。
関連論文リスト
- Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Hardware Resilience Properties of Text-Guided Image Classifiers [15.787551066303804]
本稿では,過渡的ハードウェアエラーに直面した配置中の画像分類モデルの信頼性を高める新しい手法を提案する。
当社のアプローチは,ハードウェアの信頼性の平均的な向上を目覚ましい5.5倍に達成しています。
論文 参考訳(メタデータ) (2023-11-23T15:38:13Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Deepfake Network Architecture Attribution [23.375381198124014]
既存のフェイク画像属性の研究は、GAN(Generative Adversarial Network)モデルでマルチクラス分類を行っている。
textitDeepfake Network Architecture Attribution に関する最初の研究を行い,アーキテクチャレベルでの偽画像の属性について述べる。
論文 参考訳(メタデータ) (2022-02-28T14:54:30Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - I Am Going MAD: Maximum Discrepancy Competition for Comparing
Classifiers Adaptively [135.7695909882746]
我々は、MAD(Maximum Discrepancy)コンペティションを命名する。
任意に大きいラベル付き画像のコーパスから小さなテストセットを適応的にサンプリングする。
結果のモデル依存画像集合に人間のラベルを付けると、競合する分類器の相対的な性能が明らかになる。
論文 参考訳(メタデータ) (2020-02-25T03:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。