論文の概要: ROME: Testing Image Captioning Systems via Recursive Object Melting
- arxiv url: http://arxiv.org/abs/2306.02228v2
- Date: Sun, 30 Jul 2023 08:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:35:13.177125
- Title: ROME: Testing Image Captioning Systems via Recursive Object Melting
- Title(参考訳): ROME:再帰的オブジェクトメルティングによる画像キャプションシステムのテスト
- Authors: Boxi Yu, Zhiqing Zhong, Jiaqi Li, Yixing Yang, Shilin He, Pinjia He
- Abstract要約: Recursive Object Melting (Rome)は画像キャプションシステムを検証するための新しいメタモルフィックテスト手法である。
ローマは、画像のキャプションにセットされたオブジェクトは、オブジェクトが溶けた後、生成されたイメージのキャプションにセットされたオブジェクトを含むと仮定する。
我々はローマで広く採用されている画像キャプションAPIと4つの最先端(SOTA)アルゴリズムをテストする。
- 参考スコア(独自算出の注目度): 10.111847749807923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning (IC) systems aim to generate a text description of the
salient objects in an image. In recent years, IC systems have been increasingly
integrated into our daily lives, such as assistance for visually-impaired
people and description generation in Microsoft Powerpoint. However, even the
cutting-edge IC systems (e.g., Microsoft Azure Cognitive Services) and
algorithms (e.g., OFA) could produce erroneous captions, leading to incorrect
captioning of important objects, misunderstanding, and threats to personal
safety. The existing testing approaches either fail to handle the complex form
of IC system output (i.e., sentences in natural language) or generate unnatural
images as test cases. To address these problems, we introduce Recursive Object
MElting (Rome), a novel metamorphic testing approach for validating IC systems.
Different from existing approaches that generate test cases by inserting
objects, which easily make the generated images unnatural, Rome melts (i.e.,
remove and inpaint) objects. Rome assumes that the object set in the caption of
an image includes the object set in the caption of a generated image after
object melting. Given an image, Rome can recursively remove its objects to
generate different pairs of images. We use Rome to test one widely-adopted
image captioning API and four state-of-the-art (SOTA) algorithms. The results
show that the test cases generated by Rome look much more natural than the SOTA
IC testing approach and they achieve comparable naturalness to the original
images. Meanwhile, by generating test pairs using 226 seed images, Rome reports
a total of 9,121 erroneous issues with high precision (86.47%-92.17%). In
addition, we further utilize the test cases generated by Rome to retrain the
Oscar, which improves its performance across multiple evaluation metrics.
- Abstract(参考訳): 画像キャプション(IC)システムは、画像中の有能なオブジェクトのテキスト記述を生成することを目的としている。
近年,視覚障害者の支援やMicrosoft Powerpointでの記述生成など,ICシステムは日々の生活にますます統合されている。
しかし、最先端のICシステム(例えばMicrosoft Azure Cognitive Services)やアルゴリズム(例えばOFA)でさえ誤ったキャプションを生成し、重要なオブジェクトの誤ったキャプション、誤解、個人の安全への脅威をもたらす可能性がある。
既存のテスト手法では、ICシステム出力の複雑な形式(自然言語の文など)を処理できないか、テストケースとして不自然な画像を生成するかのいずれかである。
これらの問題に対処するために、ICシステムを検証する新しいメタモルフィックテスト手法であるRecursive Object Melting (Rome)を導入する。
オブジェクトを挿入することでテストケースを生成する既存のアプローチとは異なり、生成されたイメージを不自然なものにすることが容易である。
ローマは、画像のキャプションにセットされたオブジェクトは、オブジェクトが溶けた後、生成されたイメージのキャプションにセットされたオブジェクトを含むと仮定する。
画像が与えられたとき、ローマはオブジェクトを再帰的に取り除き、異なる画像を生成する。
我々はローマで広く採用されている画像キャプションAPIと4つの最先端(SOTA)アルゴリズムをテストする。
その結果,ローマが生成したテストケースはSOTA ICテスト手法よりも自然に見え,原画像と同等の自然性が得られることがわかった。
一方、226枚のシード画像を用いてテストペアを生成することで、ローマは9,121件の誤った問題を高い精度で報告した(86.47%-92.17%)。
さらに,ローマが生成したテストケースを用いてオスカーの再トレーニングを行い,複数の評価指標での性能を向上させる。
関連論文リスト
- TIER: Text-Image Encoder-based Regression for AIGC Image Quality
Assessment [2.59079758388817]
AIGCIQAタスクでは、画像は通常、テキストプロンプトを使用して生成モデルによって生成される。
既存のAIGCIQAメソッドのほとんどは、個々の生成された画像から直接予測されたスコアを回帰する。
本稿では,テキスト画像エンコーダに基づく回帰(TIER)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:35:15Z) - Metamorphic Testing of Image Captioning Systems via Image-Level
Reduction [1.486435467709869]
本稿では,画像レベルの縮小変換を施した変成テストを行うためのREICを提案する。
画像レベルの縮小変換では、REICは任意のオブジェクトを人工的に操作しないため、非現実的なフォローアップ画像の生成を回避できる。
論文 参考訳(メタデータ) (2023-11-20T14:17:52Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Dynamic Prompt Learning: Addressing Cross-Attention Leakage for
Text-Based Image Editing [23.00202969969574]
そこで本稿では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。
本稿では,Word-Swap, Prompt Refinement, Attention Re-weightingの編集結果の改善について述べる。
論文 参考訳(メタデータ) (2023-09-27T13:55:57Z) - Detector Guidance for Multi-Object Text-to-Image Generation [61.70018793720616]
Detector Guidance(DG)は、潜在オブジェクト検出モデルを統合して、生成プロセス中に異なるオブジェクトを分離する。
人間の評価は、DGが対立する概念の融合を防ぐのに8-22%の利点をもたらすことを示した。
論文 参考訳(メタデータ) (2023-06-04T02:33:12Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - OCR-VQGAN: Taming Text-within-Image Generation [4.5718306968064635]
我々はOCR-VQGAN,画像エンコーダ,およびOCR事前学習機能を利用してテキスト知覚損失を最適化するデコーダを提案する。
我々は,OCR-VQGANの有効性を図形再構成の課題に関するいくつかの実験により実証した。
論文 参考訳(メタデータ) (2022-10-19T16:37:48Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Image Processing Based Scene-Text Detection and Recognition with
Tesseract [0.0]
本研究は,自然画像における単語の検出と認識に焦点を当てる。
このプロジェクトは80%以上の正確な文字認識率を達成した。
本稿では、開発段階、主な課題、そしてプロジェクトの興味深い発見について概説する。
論文 参考訳(メタデータ) (2020-04-17T06:58:35Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。