論文の概要: Automated Testing for Text-to-Image Software
- arxiv url: http://arxiv.org/abs/2312.12933v1
- Date: Wed, 20 Dec 2023 11:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:50:17.511033
- Title: Automated Testing for Text-to-Image Software
- Title(参考訳): テキストから画像への自動テスト
- Authors: Siqi Gu
- Abstract要約: ACTestingは、T2I(text-to-image)ソフトウェアの自動クロスモーダルテスト手法である。
本稿では,ACTestingがエラー検出テストを生成することにより,ベースラインと比較してテキストイメージの一貫性を最大20%低減できることを示す。
その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, creative generative artificial intelligence software has emerged as
a pivotal assistant, enabling users to generate content and seek inspiration
rapidly. Text-to-image (T2I) software, being one of the most widely used among
them, is used to synthesize images with simple text input by engaging in a
cross-modal process. However, despite substantial advancements in several
fields, T2I software often encounters defects and erroneous, including omitting
focal entities, low image realism, and mismatched text-image information. The
cross-modal nature of T2I software makes it challenging for traditional testing
methods to detect defects. Lacking test oracles further increases the
complexity of testing. To address this deficiency, we propose ACTesting, an
Automated Cross-modal Testing Method of Text-to-Image software, the first
testing method designed specifically for T2I software. We construct test
samples based on entities and relationship triples following the fundamental
principle of maintaining consistency in the semantic information to overcome
the cross-modal matching challenges. To address the issue of testing oracle
scarcity, we first design the metamorphic relation for T2I software and
implement three types of mutation operators guided by adaptability density. In
the experiment, we conduct ACTesting on four widely-used T2I software. The
results show that ACTesting can generate error-revealing tests, reducing the
text-image consistency by up to 20% compared with the baseline. We also conduct
the ablation study that effectively showcases the efficacy of each mutation
operator, based on the proposed metamorphic relation. The results demonstrate
that ACTesting can identify abnormal behaviors of T2I software effectively.
- Abstract(参考訳): 近年、クリエイティブな生成人工知能ソフトウェアが中心的なアシスタントとして登場し、ユーザーはコンテンツを生成し、インスピレーションを迅速に求めることができるようになった。
最も広く使われているtext-to-image(t2i)ソフトウェアは、クロスモーダルなプロセスによって単純なテキスト入力でイメージを合成するために使用される。
しかし、いくつかの分野でかなりの進歩があったにもかかわらず、T2Iソフトウェアは、焦点エンティティの省略、画像リアリズムの低さ、テキスト画像情報のミスマッチなど、しばしば欠陥や誤りに遭遇する。
t2iソフトウェアのクロスモーダル性は、従来のテスト方法が欠陥を検出するのを難しくする。
テストオラクルの欠如はテストの複雑さをさらに増加させる。
この不足に対処するため,我々は,t2iソフトウェア用に設計された最初のテスト手法であるテキストから画像への自動クロスモーダルテスト手法であるactestingを提案する。
本研究は, 意味情報の一貫性を維持するという基本原理に従って, エンティティと関係トリプルに基づくテストサンプルを構築し, クロスモーダルマッチングの課題を克服する。
まず,T2Iソフトウェアの変成関係を設計し,適応性密度で導かれる3種類の突然変異演算子を実装した。
実験では,広く使用されている4つのT2Iソフトウェア上でACTestを行う。
その結果、ACTestingはエラー検出テストを生成することができ、ベースラインと比較してテキストイメージの一貫性を最大20%削減できることがわかった。
また,提案するメタモルフィック関係に基づいて,各変異演算子の有効性を効果的に示すアブレーション研究を行う。
その結果,t2iソフトウェアの異常動作を効果的に識別できることがわかった。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion Models against Stochastic Perturbation [18.103478658038846]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、単純なテキスト記述に基づいて高品質な画像を生成する際、印象的な能力を示した。
多くのディープラーニング(DL)モデルに共通するように、DMは堅牢性に欠ける。
本稿では,T2I DMのロバスト性に関する確率論的概念を導入し,統計的保証で評価するための効率的なフレームワークであるProTIPを確立する。
論文 参考訳(メタデータ) (2024-02-23T16:48:56Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。