論文の概要: LANCE: Stress-testing Visual Models by Generating Language-guided
Counterfactual Images
- arxiv url: http://arxiv.org/abs/2305.19164v1
- Date: Tue, 30 May 2023 16:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:16:00.386074
- Title: LANCE: Stress-testing Visual Models by Generating Language-guided
Counterfactual Images
- Title(参考訳): lance: 言語誘導偽画像生成によるストレステスト視覚モデル
- Authors: Viraj Prabhu, Sriram Yenamandra, Prithvijit Chattopadhyay, Judy
Hoffman
- Abstract要約: 言語誘導型対実テスト画像(LANCE)を生成することにより、訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。
提案手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を利用して,モデル重みを変更することなく,多種多様で現実的で挑戦的なテスト画像の集合を用いてIIDテストセットを増強する。
- 参考スコア(独自算出の注目度): 11.328580482091082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an automated algorithm to stress-test a trained visual model by
generating language-guided counterfactual test images (LANCE). Our method
leverages recent progress in large language modeling and text-based image
editing to augment an IID test set with a suite of diverse, realistic, and
challenging test images without altering model weights. We benchmark the
performance of a diverse set of pretrained models on our generated data and
observe significant and consistent performance drops. We further analyze model
sensitivity across different types of edits, and demonstrate its applicability
at surfacing previously unknown class-level model biases in ImageNet.
- Abstract(参考訳): 本稿では,言語誘導型対実テスト画像(LANCE)を生成することで,訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。
本手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を活かし,モデル重み付けを変更せずに,多様でリアルで挑戦的なテスト画像群で iid テストセットを補強する。
生成したデータに対して,事前訓練済みモデルの多種多様な性能をベンチマークし,顕著かつ一貫した性能低下を観察する。
さらに、異なる種類の編集に対してモデルの感度を解析し、ImageNetの未知のクラスレベルのモデルバイアスを克服し、その適用性を示す。
関連論文リスト
- DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。
事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。
ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文 参考訳(メタデータ) (2024-12-12T20:01:24Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。