論文の概要: ROME: Testing Image Captioning Systems via Recursive Object Melting
- arxiv url: http://arxiv.org/abs/2306.02228v2
- Date: Sun, 30 Jul 2023 08:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:35:13.177125
- Title: ROME: Testing Image Captioning Systems via Recursive Object Melting
- Title(参考訳): ROME:再帰的オブジェクトメルティングによる画像キャプションシステムのテスト
- Authors: Boxi Yu, Zhiqing Zhong, Jiaqi Li, Yixing Yang, Shilin He, Pinjia He
- Abstract要約: Recursive Object Melting (Rome)は画像キャプションシステムを検証するための新しいメタモルフィックテスト手法である。
ローマは、画像のキャプションにセットされたオブジェクトは、オブジェクトが溶けた後、生成されたイメージのキャプションにセットされたオブジェクトを含むと仮定する。
我々はローマで広く採用されている画像キャプションAPIと4つの最先端(SOTA)アルゴリズムをテストする。
- 参考スコア(独自算出の注目度): 10.111847749807923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning (IC) systems aim to generate a text description of the
salient objects in an image. In recent years, IC systems have been increasingly
integrated into our daily lives, such as assistance for visually-impaired
people and description generation in Microsoft Powerpoint. However, even the
cutting-edge IC systems (e.g., Microsoft Azure Cognitive Services) and
algorithms (e.g., OFA) could produce erroneous captions, leading to incorrect
captioning of important objects, misunderstanding, and threats to personal
safety. The existing testing approaches either fail to handle the complex form
of IC system output (i.e., sentences in natural language) or generate unnatural
images as test cases. To address these problems, we introduce Recursive Object
MElting (Rome), a novel metamorphic testing approach for validating IC systems.
Different from existing approaches that generate test cases by inserting
objects, which easily make the generated images unnatural, Rome melts (i.e.,
remove and inpaint) objects. Rome assumes that the object set in the caption of
an image includes the object set in the caption of a generated image after
object melting. Given an image, Rome can recursively remove its objects to
generate different pairs of images. We use Rome to test one widely-adopted
image captioning API and four state-of-the-art (SOTA) algorithms. The results
show that the test cases generated by Rome look much more natural than the SOTA
IC testing approach and they achieve comparable naturalness to the original
images. Meanwhile, by generating test pairs using 226 seed images, Rome reports
a total of 9,121 erroneous issues with high precision (86.47%-92.17%). In
addition, we further utilize the test cases generated by Rome to retrain the
Oscar, which improves its performance across multiple evaluation metrics.
- Abstract(参考訳): 画像キャプション(IC)システムは、画像中の有能なオブジェクトのテキスト記述を生成することを目的としている。
近年,視覚障害者の支援やMicrosoft Powerpointでの記述生成など,ICシステムは日々の生活にますます統合されている。
しかし、最先端のICシステム(例えばMicrosoft Azure Cognitive Services)やアルゴリズム(例えばOFA)でさえ誤ったキャプションを生成し、重要なオブジェクトの誤ったキャプション、誤解、個人の安全への脅威をもたらす可能性がある。
既存のテスト手法では、ICシステム出力の複雑な形式(自然言語の文など)を処理できないか、テストケースとして不自然な画像を生成するかのいずれかである。
これらの問題に対処するために、ICシステムを検証する新しいメタモルフィックテスト手法であるRecursive Object Melting (Rome)を導入する。
オブジェクトを挿入することでテストケースを生成する既存のアプローチとは異なり、生成されたイメージを不自然なものにすることが容易である。
ローマは、画像のキャプションにセットされたオブジェクトは、オブジェクトが溶けた後、生成されたイメージのキャプションにセットされたオブジェクトを含むと仮定する。
画像が与えられたとき、ローマはオブジェクトを再帰的に取り除き、異なる画像を生成する。
我々はローマで広く採用されている画像キャプションAPIと4つの最先端(SOTA)アルゴリズムをテストする。
その結果,ローマが生成したテストケースはSOTA ICテスト手法よりも自然に見え,原画像と同等の自然性が得られることがわかった。
一方、226枚のシード画像を用いてテストペアを生成することで、ローマは9,121件の誤った問題を高い精度で報告した(86.47%-92.17%)。
さらに,ローマが生成したテストケースを用いてオスカーの再トレーニングを行い,複数の評価指標での性能を向上させる。
関連論文リスト
- Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - ABHINAW: A method for Automatic Evaluation of Typography within AI-Generated Images [0.44241702149260337]
本稿では,AI生成画像中のテキストとタイポグラフィー生成の性能を明示的に定量化するために設計された新しい評価行列を提案する。
本手法では, 単語の繰り返し, ケース感度, 単語の混合, 文字の不規則な取り込みなど, 複数の冗長性に対処する。
論文 参考訳(メタデータ) (2024-09-18T11:04:35Z) - SPOLRE: Semantic Preserving Object Layout Reconstruction for Image Captioning System Testing [12.895128109843071]
SPOLREは、ICシステムテストにおけるオブジェクトレイアウト再構築を意味保存する自動化ツールである。
手動のアノテーションの必要性を排除し、現実的で多様なテストスイートを作成する。
SPOLREはキャプションエラーを識別し、平均精度が91.62%の7つのICシステムで31,544個の誤ったキャプションを検出する。
論文 参考訳(メタデータ) (2024-07-26T04:46:31Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
本稿では,AIによる画像検出の課題が解決されたかどうかの検査を行う。
既存の手法の一般化を定量化するために,Chameleonデータセット上で,既製のAI生成画像検出器を9つ評価した。
複数の専門家が同時に視覚的アーチファクトやノイズパターンを抽出するAI生成画像検出装置(AID)を提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - TIER: Text-Image Encoder-based Regression for AIGC Image Quality
Assessment [2.59079758388817]
AIGCIQAタスクでは、画像は通常、テキストプロンプトを使用して生成モデルによって生成される。
既存のAIGCIQAメソッドのほとんどは、個々の生成された画像から直接予測されたスコアを回帰する。
本稿では,テキスト画像エンコーダに基づく回帰(TIER)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:35:15Z) - Metamorphic Testing of Image Captioning Systems via Image-Level Reduction [1.3225694028747141]
本稿では,画像レベルの縮小変換を施した変成テストを行うためのREICを提案する。
画像レベルの縮小変換では、REICは任意のオブジェクトを人工的に操作しないため、非現実的なフォローアップ画像の生成を回避できる。
論文 参考訳(メタデータ) (2023-11-20T14:17:52Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Dynamic Prompt Learning: Addressing Cross-Attention Leakage for
Text-Based Image Editing [23.00202969969574]
そこで本稿では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。
本稿では,Word-Swap, Prompt Refinement, Attention Re-weightingの編集結果の改善について述べる。
論文 参考訳(メタデータ) (2023-09-27T13:55:57Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。