論文の概要: ACTesting: Automated Cross-modal Testing Method of Text-to-Image Software
- arxiv url: http://arxiv.org/abs/2312.12933v3
- Date: Sat, 11 Jan 2025 12:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:44.408592
- Title: ACTesting: Automated Cross-modal Testing Method of Text-to-Image Software
- Title(参考訳): ACTesting: テキスト・ツー・イメージ・ソフトウェアの自動クロスモーダルテスト手法
- Authors: Siqi Gu, Chunrong Fang, Quanjun Zhang, Zhenyu Chen,
- Abstract要約: ACTestingは、テキスト・トゥ・イメージ・ソフトウェアのためのクロスモーダル自動テスト手法である。
実験では、ACTestingはエラー検出テストを効果的に生成し、テキストイメージの一貫性を最大20%低下させる。
結果は、ACTestingがT2Iソフトウェア内のエラーを確実に識別できることを検証する。
- 参考スコア(独自算出の注目度): 9.351572210564134
- License:
- Abstract: Recently, creative generative artificial intelligence software has emerged as a pivotal assistant, enabling users to generate content and seek inspiration rapidly. Text-to-Image (T2I) software, one of the most widely used, synthesizes images with text input by engaging in a cross-modal process. However, despite substantial advancements in the T2I engine, T2I software still encounters errors when generating complex or non-realistic scenes, including omitting focal entities, low image realism, and mismatched text-image information. The cross-modal nature of T2I software complicates error detection for traditional testing methods, and the absence of test oracles further exacerbates the complexity of the testing process. To fill this gap, we propose ACTesting, an Automated Cross-modal Testing Method of Text-to-Image Software, the first testing method explicitly designed for T2I software. ACTesting utilizes the metamorphic testing principle to address the oracle problem and identifies cross-modal semantic consistency as its fundamental Metamorphic relation (MR) by employing the Entity-relationship (ER) triples. We design three kinds of mutation operators under the guidance of MR and the adaptability density constraint to construct the new input text. After generating the images based on the text, ACTesting verifies whether MR is satisfied by detecting the ER triples across two modalities to detect the errors of T2I software. In our experiments across five popular T2I software, ACTesting effectively generates error-revealing tests, resulting in a decrease in text-image consistency by up to 20% when compared to the baseline. Additionally, an ablation study demonstrates the efficacy of the proposed mutation operators. The experimental results validate that ACTesting can reliably identify errors within T2I software.
- Abstract(参考訳): 近年、クリエイティブな生成人工知能ソフトウェアが中心的なアシスタントとして登場し、ユーザーはコンテンツを生成し、インスピレーションを迅速に求めることができるようになった。
テキスト・トゥ・イメージ(英語版)(T2I)ソフトウェアは、最も広く使われているソフトウェアの一つである。
しかしながら、T2Iエンジンの大幅な進歩にもかかわらず、T2Iソフトウェアは、焦点エンティティの省略、画像リアリズムの低減、テキストイメージ情報のミスマッチなど、複雑なシーンや非現実的なシーンを生成する際のエラーに遭遇する。
T2Iソフトウェアのクロスモーダルな性質は、従来のテスト手法のエラー検出を複雑にし、テストオラクルがないことでテストプロセスの複雑さがさらに悪化する。
このギャップを埋めるために,本研究では,T2Iソフトウェア用に明示的に設計された最初のテスト手法である,テキスト・ツー・イメージ・ソフトウェアの自動クロスモーダルテスト手法であるACTestingを提案する。
ACTestingはメタモルフィックテストの原理を用いてオラクル問題に対処し、エンティティ-リレーショナル(ER)トリプルを用いることで、クロスモーダルなセマンティック一貫性を基本的なメタモルフィック関係(MR)として識別する。
我々はMRと適応性密度制約の指導の下で3種類の突然変異演算子を設計し、新しい入力テキストを構築する。
テキストに基づいて画像を生成した後、ACTestingは、ERトリプルを2つのモードにわたって検出し、T2Iソフトウェアのエラーを検出することによりMRが満足するかどうかを検証する。
一般的な5つのT2Iソフトウェアを対象とした実験では、ACTestingはエラー検出テストを効果的に生成し、ベースラインと比較してテキスト画像の一貫性が最大20%低下する結果となった。
さらに、アブレーション研究は、提案された突然変異演算子の有効性を示す。
実験の結果、ACTestingはT2Iソフトウェア内のエラーを確実に識別できることがわかった。
関連論文リスト
- Artificial intelligence for context-aware visual change detection in software test automation [5.174422378856116]
本稿では,ソフトウェアテスト自動化における視覚的変化検出のためのグラフベースの新しい手法を提案する。
本手法は,ソフトウェアスクリーンショットからUI制御を正確に識別し,制御間の文脈的・空間的関係を表すグラフを構築する。
様々な単純で複雑なテストシナリオにおいて、視覚的ソフトウェアの変更を正確に検出できる。
論文 参考訳(メタデータ) (2024-05-01T21:22:33Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion Models against Stochastic Perturbation [18.103478658038846]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、単純なテキスト記述に基づいて高品質な画像を生成する際、印象的な能力を示した。
多くのディープラーニング(DL)モデルに共通するように、DMは堅牢性に欠ける。
本稿では,T2I DMのロバスト性に関する確率論的概念を導入し,統計的保証で評価するための効率的なフレームワークであるProTIPを確立する。
論文 参考訳(メタデータ) (2024-02-23T16:48:56Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。