Fugu-MT 論文翻訳(概要): Benchmarking Robustness to Text-Guided Corruptions

論文の概要: Benchmarking Robustness to Text-Guided Corruptions

arxiv url: http://arxiv.org/abs/2304.02963v2
Date: Mon, 31 Jul 2023 09:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 23:05:53.799096
Title: Benchmarking Robustness to Text-Guided Corruptions
Title（参考訳）: テキストガイド汚職に対するロバスト性のベンチマーク
Authors: Mohammadreza Mofayezi and Yasamin Medghalchi
Abstract要約: 拡散モデルを用いて異なる領域の画像を編集する。我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。畳み込みモデルはトランスフォーマーアーキテクチャよりも堅牢である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates the robustness of image classifiers to text-guided corruptions. We utilize diffusion models to edit images to different domains. Unlike other works that use synthetic or hand-picked data for benchmarking, we use diffusion models as they are generative models capable of learning to edit images while preserving their semantic content. Thus, the corruptions will be more realistic and the comparison will be more informative. Also, there is no need for manual labeling and we can create large-scale benchmarks with less effort. We define a prompt hierarchy based on the original ImageNet hierarchy to apply edits in different domains. As well as introducing a new benchmark we try to investigate the robustness of different vision models. The results of this study demonstrate that the performance of image classifiers decreases significantly in different language-based corruptions and edit domains. We also observe that convolutional models are more robust than transformer architectures. Additionally, we see that common data augmentation techniques can improve the performance on both the original data and the edited images. The findings of this research can help improve the design of image classifiers and contribute to the development of more robust machine learning systems. The code for generating the benchmark is available at https://github.com/ckoorosh/RobuText.
Abstract（参考訳）: 本研究は,テキスト誘導汚職に対する画像分類器の堅牢性について検討する。拡散モデルを用いて異なる領域の画像を編集する。合成データや手書きデータを用いてベンチマークを行う他の研究とは異なり、画像の編集とセマンティックなコンテンツの保存を学習できる生成モデルとして拡散モデルを用いる。したがって、汚職はより現実的で、比較はより情報的になるだろう。また、手動のラベリングは不要で、より少ない労力で大規模なベンチマークを作成できます。我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。新たなベンチマークを導入するだけでなく,さまざまなビジョンモデルの堅牢性についても検討する。本研究は, 画像分類器の性能が, 異なる言語に基づく腐敗や編集領域において著しく低下することを示す。また,畳み込みモデルがトランスフォーマーアーキテクチャよりも堅牢であることも観察した。さらに、共通データ拡張技術は、元のデータと編集された画像の両方のパフォーマンスを向上させることができる。本研究は,画像分類器の設計の改善に寄与し,より堅牢な機械学習システムの開発に寄与する。ベンチマークを生成するコードはhttps://github.com/ckoorosh/robutextで入手できる。

関連論文リスト

FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL [78.59912944698992]
微細なテキスト画像のセマンティックアライメントを強化するためにFocusDiffを提案する。我々は、類似した全体表現を持つペアテキストと画像の新しいデータセットを構築するが、局所的な意味論を区別する。提案手法は,既存のテキスト・画像・ベンチマークにおける最先端性能を実現し,PairCompの先行手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-05T18:36:33Z)
Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。 ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文参考訳（メタデータ） (2024-09-24T08:46:13Z)
Benchmarking Counterfactual Image Generation [22.573830532174956]
ジェネレーティブAIは、視覚コンテンツ編集に革命をもたらし、画像やビデオの編集に力を入れている。自然画像や医用画像などの領域で現実的な編集を行うには、因果関係を尊重しなければならない。本稿では,反実画像生成手法の徹底的なベンチマークを行うための比較フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-29T16:58:13Z)
ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文参考訳（メタデータ） (2024-03-27T17:23:39Z)
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文参考訳（メタデータ） (2023-12-05T17:18:09Z)
Hardware Resilience Properties of Text-Guided Image Classifiers [15.787551066303804]
本稿では,過渡的ハードウェアエラーに直面した配置中の画像分類モデルの信頼性を高める新しい手法を提案する。当社のアプローチは,ハードウェアの信頼性の平均的な向上を目覚ましい5.5倍に達成しています。
論文参考訳（メタデータ） (2023-11-23T15:38:13Z)
RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models [36.19590638188108]
我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
論文参考訳（メタデータ） (2023-04-21T03:45:59Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文参考訳（メタデータ） (2023-03-30T02:02:32Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文参考訳（メタデータ） (2022-05-27T17:03:38Z)
RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2021-04-07T09:41:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。