論文の概要: Automated Testing for Text-to-Image Software
- arxiv url: http://arxiv.org/abs/2312.12933v1
- Date: Wed, 20 Dec 2023 11:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:50:17.511033
- Title: Automated Testing for Text-to-Image Software
- Title(参考訳): テキストから画像への自動テスト
- Authors: Siqi Gu
- Abstract要約: ACTestingは、T2I(text-to-image)ソフトウェアの自動クロスモーダルテスト手法である。
本稿では,ACTestingがエラー検出テストを生成することにより,ベースラインと比較してテキストイメージの一貫性を最大20%低減できることを示す。
その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, creative generative artificial intelligence software has emerged as
a pivotal assistant, enabling users to generate content and seek inspiration
rapidly. Text-to-image (T2I) software, being one of the most widely used among
them, is used to synthesize images with simple text input by engaging in a
cross-modal process. However, despite substantial advancements in several
fields, T2I software often encounters defects and erroneous, including omitting
focal entities, low image realism, and mismatched text-image information. The
cross-modal nature of T2I software makes it challenging for traditional testing
methods to detect defects. Lacking test oracles further increases the
complexity of testing. To address this deficiency, we propose ACTesting, an
Automated Cross-modal Testing Method of Text-to-Image software, the first
testing method designed specifically for T2I software. We construct test
samples based on entities and relationship triples following the fundamental
principle of maintaining consistency in the semantic information to overcome
the cross-modal matching challenges. To address the issue of testing oracle
scarcity, we first design the metamorphic relation for T2I software and
implement three types of mutation operators guided by adaptability density. In
the experiment, we conduct ACTesting on four widely-used T2I software. The
results show that ACTesting can generate error-revealing tests, reducing the
text-image consistency by up to 20% compared with the baseline. We also conduct
the ablation study that effectively showcases the efficacy of each mutation
operator, based on the proposed metamorphic relation. The results demonstrate
that ACTesting can identify abnormal behaviors of T2I software effectively.
- Abstract(参考訳): 近年、クリエイティブな生成人工知能ソフトウェアが中心的なアシスタントとして登場し、ユーザーはコンテンツを生成し、インスピレーションを迅速に求めることができるようになった。
最も広く使われているtext-to-image(t2i)ソフトウェアは、クロスモーダルなプロセスによって単純なテキスト入力でイメージを合成するために使用される。
しかし、いくつかの分野でかなりの進歩があったにもかかわらず、T2Iソフトウェアは、焦点エンティティの省略、画像リアリズムの低さ、テキスト画像情報のミスマッチなど、しばしば欠陥や誤りに遭遇する。
t2iソフトウェアのクロスモーダル性は、従来のテスト方法が欠陥を検出するのを難しくする。
テストオラクルの欠如はテストの複雑さをさらに増加させる。
この不足に対処するため,我々は,t2iソフトウェア用に設計された最初のテスト手法であるテキストから画像への自動クロスモーダルテスト手法であるactestingを提案する。
本研究は, 意味情報の一貫性を維持するという基本原理に従って, エンティティと関係トリプルに基づくテストサンプルを構築し, クロスモーダルマッチングの課題を克服する。
まず,T2Iソフトウェアの変成関係を設計し,適応性密度で導かれる3種類の突然変異演算子を実装した。
実験では,広く使用されている4つのT2Iソフトウェア上でACTestを行う。
その結果、ACTestingはエラー検出テストを生成することができ、ベースラインと比較してテキストイメージの一貫性を最大20%削減できることがわかった。
また,提案するメタモルフィック関係に基づいて,各変異演算子の有効性を効果的に示すアブレーション研究を行う。
その結果,t2iソフトウェアの異常動作を効果的に識別できることがわかった。
関連論文リスト
- Artificial intelligence for context-aware visual change detection in software test automation [5.174422378856116]
本稿では,ソフトウェアテスト自動化における視覚的変化検出のためのグラフベースの新しい手法を提案する。
本手法は,ソフトウェアスクリーンショットからUI制御を正確に識別し,制御間の文脈的・空間的関係を表すグラフを構築する。
様々な単純で複雑なテストシナリオにおいて、視覚的ソフトウェアの変更を正確に検出できる。
論文 参考訳(メタデータ) (2024-05-01T21:22:33Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion Models against Stochastic Perturbation [18.103478658038846]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、単純なテキスト記述に基づいて高品質な画像を生成する際、印象的な能力を示した。
多くのディープラーニング(DL)モデルに共通するように、DMは堅牢性に欠ける。
本稿では,T2I DMのロバスト性に関する確率論的概念を導入し,統計的保証で評価するための効率的なフレームワークであるProTIPを確立する。
論文 参考訳(メタデータ) (2024-02-23T16:48:56Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。