Fugu-MT 論文翻訳(概要): LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images

論文の概要: LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images

arxiv url: http://arxiv.org/abs/2305.19164v2
Date: Fri, 27 Oct 2023 20:32:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 21:49:21.947364
Title: LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images
Title（参考訳）: lance: 言語誘導偽画像生成によるストレステスト視覚モデル
Authors: Viraj Prabhu, Sriram Yenamandra, Prithvijit Chattopadhyay, Judy Hoffman
Abstract要約: 言語誘導型対実テスト画像(LANCE)を生成することにより、訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。提案手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を利用して,モデル重みを変更することなく,多種多様で現実的で挑戦的なテスト画像の集合を用いてIIDテストセットを増強する。
参考スコア（独自算出の注目度）: 20.307968197151897
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose an automated algorithm to stress-test a trained visual model by generating language-guided counterfactual test images (LANCE). Our method leverages recent progress in large language modeling and text-based image editing to augment an IID test set with a suite of diverse, realistic, and challenging test images without altering model weights. We benchmark the performance of a diverse set of pre-trained models on our generated data and observe significant and consistent performance drops. We further analyze model sensitivity across different types of edits, and demonstrate its applicability at surfacing previously unknown class-level model biases in ImageNet. Code is available at https://github.com/virajprabhu/lance.
Abstract（参考訳）: 本稿では,言語誘導型対実テスト画像(LANCE)を生成することで,訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。本手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を活かし,モデル重み付けを変更せずに,多様でリアルで挑戦的なテスト画像群で iid テストセットを補強する。生成したデータに対して,事前学習した多種多様なモデルのパフォーマンスをベンチマークし,顕著かつ一貫した性能低下を観察する。さらに、異なる種類の編集に対してモデルの感度を解析し、ImageNetの未知のクラスレベルのモデルバイアスを克服し、その適用性を示す。コードはhttps://github.com/virajprabhu/lanceで入手できる。

関連論文リスト

Evaluating the encoding competence of visual language models using uncommon actions [5.816389980109022]
UAITは、視覚言語モデル(VLM)の動作シーンにおける意味理解能力をテストするために設計された新しい評価ベンチマークである。我々は,大規模言語モデル,少数ショットプロンプトエンジニアリング,テキスト・ツー・イメージ・ジェネレーションを用いて,高品質な非常識画像テキストサンプルを合成する。我々は、複数の最先端ビジュアル言語モデルを評価し、コントラスト学習に基づくモデルと比較する。
論文参考訳（メタデータ） (2026-01-12T17:15:45Z)
Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:57Z)
What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。 DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文参考訳（メタデータ） (2025-05-26T18:00:10Z)
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文参考訳（メタデータ） (2025-03-16T21:11:25Z)
DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文参考訳（メタデータ） (2025-02-05T16:35:42Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文参考訳（メタデータ） (2024-12-12T20:01:24Z)
VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。 VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文参考訳（メタデータ） (2024-09-23T04:50:36Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Diffusion-TTA: Test-time Adaptation of Discriminative Models via Generative Feedback [97.0874638345205]
生成モデルは、識別モデルのための優れたテストタイムアダプタになり得る。提案手法であるDiffusion-TTAは,事前学習した判別モデルを,テストセットの各未学習例に適応させる。拡散-TTAは,様々な大規模事前学習型判別モデルの精度を著しく向上させることを示した。
論文参考訳（メタデータ） (2023-11-27T18:59:53Z)
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。事前訓練された言語モデルは限られた助けを提供する。
論文参考訳（メタデータ） (2023-11-27T07:19:26Z)
Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文参考訳（メタデータ） (2023-08-29T05:44:00Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文参考訳（メタデータ） (2023-03-30T02:02:32Z)
Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文参考訳（メタデータ） (2023-03-27T17:59:33Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。