論文の概要: Benchmarking Robustness to Text-Guided Corruptions
- arxiv url: http://arxiv.org/abs/2304.02963v2
- Date: Mon, 31 Jul 2023 09:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 23:05:53.799096
- Title: Benchmarking Robustness to Text-Guided Corruptions
- Title(参考訳): テキストガイド汚職に対するロバスト性のベンチマーク
- Authors: Mohammadreza Mofayezi and Yasamin Medghalchi
- Abstract要約: 拡散モデルを用いて異なる領域の画像を編集する。
我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。
畳み込みモデルはトランスフォーマーアーキテクチャよりも堅牢である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the robustness of image classifiers to text-guided
corruptions. We utilize diffusion models to edit images to different domains.
Unlike other works that use synthetic or hand-picked data for benchmarking, we
use diffusion models as they are generative models capable of learning to edit
images while preserving their semantic content. Thus, the corruptions will be
more realistic and the comparison will be more informative. Also, there is no
need for manual labeling and we can create large-scale benchmarks with less
effort. We define a prompt hierarchy based on the original ImageNet hierarchy
to apply edits in different domains. As well as introducing a new benchmark we
try to investigate the robustness of different vision models. The results of
this study demonstrate that the performance of image classifiers decreases
significantly in different language-based corruptions and edit domains. We also
observe that convolutional models are more robust than transformer
architectures. Additionally, we see that common data augmentation techniques
can improve the performance on both the original data and the edited images.
The findings of this research can help improve the design of image classifiers
and contribute to the development of more robust machine learning systems. The
code for generating the benchmark is available at
https://github.com/ckoorosh/RobuText.
- Abstract(参考訳): 本研究は,テキスト誘導汚職に対する画像分類器の堅牢性について検討する。
拡散モデルを用いて異なる領域の画像を編集する。
合成データや手書きデータを用いてベンチマークを行う他の研究とは異なり、画像の編集とセマンティックなコンテンツの保存を学習できる生成モデルとして拡散モデルを用いる。
したがって、汚職はより現実的で、比較はより情報的になるだろう。
また、手動のラベリングは不要で、より少ない労力で大規模なベンチマークを作成できます。
我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。
新たなベンチマークを導入するだけでなく,さまざまなビジョンモデルの堅牢性についても検討する。
本研究は, 画像分類器の性能が, 異なる言語に基づく腐敗や編集領域において著しく低下することを示す。
また,畳み込みモデルがトランスフォーマーアーキテクチャよりも堅牢であることも観察した。
さらに、共通データ拡張技術は、元のデータと編集された画像の両方のパフォーマンスを向上させることができる。
本研究は,画像分類器の設計の改善に寄与し,より堅牢な機械学習システムの開発に寄与する。
ベンチマークを生成するコードはhttps://github.com/ckoorosh/robutextで入手できる。
関連論文リスト
- Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Benchmarking Counterfactual Image Generation [22.573830532174956]
ジェネレーティブAIは、視覚コンテンツ編集に革命をもたらし、画像やビデオの編集に力を入れている。
自然画像や医用画像などの領域で現実的な編集を行うには、因果関係を尊重しなければならない。
本稿では,反実画像生成手法の徹底的なベンチマークを行うための比較フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:58:13Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models [36.19590638188108]
我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。
具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。
提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
論文 参考訳(メタデータ) (2023-04-21T03:45:59Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。