論文の概要: SPOLRE: Semantic Preserving Object Layout Reconstruction for Image Captioning System Testing
- arxiv url: http://arxiv.org/abs/2407.18512v1
- Date: Fri, 26 Jul 2024 04:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:20:08.085800
- Title: SPOLRE: Semantic Preserving Object Layout Reconstruction for Image Captioning System Testing
- Title(参考訳): SPOLRE:画像キャプションシステムテストのための意味保存オブジェクトレイアウト再構成
- Authors: Yi Liu, Guanyu Wang, Xinyi Zheng, Gelei Deng, Kailong Wang, Yang Liu, Haoyu Wang,
- Abstract要約: SPOLREは、ICシステムテストにおけるオブジェクトレイアウト再構築を意味保存する自動化ツールである。
手動のアノテーションの必要性を排除し、現実的で多様なテストスイートを作成する。
SPOLREはキャプションエラーを識別し、平均精度が91.62%の7つのICシステムで31,544個の誤ったキャプションを検出する。
- 参考スコア(独自算出の注目度): 12.895128109843071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning (IC) systems, such as Microsoft Azure Cognitive Service, translate image content into descriptive language but can generate inaccuracies leading to misinterpretations. Advanced testing techniques like MetaIC and ROME aim to address these issues but face significant challenges. These methods require intensive manual labor for detailed annotations and often produce unrealistic images, either by adding unrelated objects or failing to remove existing ones. Additionally, they generate limited test suites, with MetaIC restricted to inserting specific objects and ROME limited to a narrow range of variations. We introduce SPOLRE, a novel automated tool for semantic-preserving object layout reconstruction in IC system testing. SPOLRE leverages four transformation techniques to modify object layouts without altering the image's semantics. This automated approach eliminates the need for manual annotations and creates realistic, varied test suites. Our tests show that over 75% of survey respondents find SPOLRE-generated images more realistic than those from state-of-the-art methods. SPOLRE excels in identifying caption errors, detecting 31,544 incorrect captions across seven IC systems with an average precision of 91.62%, surpassing other methods which average 85.65% accuracy and identify 17,160 incorrect captions. Notably, SPOLRE identified 6,236 unique issues within Azure, demonstrating its effectiveness against one of the most advanced IC systems.
- Abstract(参考訳): Microsoft Azure Cognitive Serviceのような画像キャプション(IC)システムは、イメージコンテンツを記述言語に変換するが、誤解釈につながる不正確な情報を生成することができる。
MetaICやROMEのような高度なテスト技術はこれらの問題に対処することを目指しているが、重大な課題に直面している。
これらの方法は、詳細なアノテーションのために集中的な手作業を必要とし、しばしば無関係なオブジェクトを追加するか、既存のオブジェクトを削除するのに失敗することによって、非現実的なイメージを生成する。
さらに、MetaICは特定のオブジェクトの挿入に制限され、ROMEは限られた範囲のバリエーションに制限されたテストスイートを生成する。
ICシステムテストにおけるオブジェクトレイアウト再構築のセマンティック保存のための新しい自動化ツールSPOLREを紹介する。
SPOLREは4つの変換技術を利用して、画像の意味を変更せずにオブジェクトレイアウトを変更する。
この自動化アプローチは、手動のアノテーションの必要性を排除し、現実的で多様なテストスイートを生成する。
調査によると、回答者の75%以上が、最先端の手法よりもSPOLRE生成画像の方がリアルであることがわかった。
SPOLREはキャプションエラーを識別し、平均精度が91.62%の7つのICシステムで31,544個の誤ったキャプションを検出し、平均85.65%の精度で17,160個の不正確なキャプションを識別する他の手法を上回っている。
特にSPOLREは、Azure内の6,236のユニークな問題を特定し、最も先進的なICシステムに対する効果を実証した。
関連論文リスト
- Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR [0.0]
そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。
モバイルアプリケーションのコンテキスト内で実装されたこのシステムは、重要なテキスト情報の自動抽出を可能にする。
ネパール文字に最適化されたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T06:29:08Z) - Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。
新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。
質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文 参考訳(メタデータ) (2024-03-20T12:40:32Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Metamorphic Testing of Image Captioning Systems via Image-Level Reduction [1.3225694028747141]
本稿では,画像レベルの縮小変換を施した変成テストを行うためのREICを提案する。
画像レベルの縮小変換では、REICは任意のオブジェクトを人工的に操作しないため、非現実的なフォローアップ画像の生成を回避できる。
論文 参考訳(メタデータ) (2023-11-20T14:17:52Z) - Dynamic Prompt Learning: Addressing Cross-Attention Leakage for
Text-Based Image Editing [23.00202969969574]
そこで本稿では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。
本稿では,Word-Swap, Prompt Refinement, Attention Re-weightingの編集結果の改善について述べる。
論文 参考訳(メタデータ) (2023-09-27T13:55:57Z) - ROME: Testing Image Captioning Systems via Recursive Object Melting [10.111847749807923]
Recursive Object Melting (Rome)は画像キャプションシステムを検証するための新しいメタモルフィックテスト手法である。
ローマは、画像のキャプションにセットされたオブジェクトは、オブジェクトが溶けた後、生成されたイメージのキャプションにセットされたオブジェクトを含むと仮定する。
我々はローマで広く採用されている画像キャプションAPIと4つの最先端(SOTA)アルゴリズムをテストする。
論文 参考訳(メタデータ) (2023-06-04T01:38:55Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Catching Out-of-Context Misinformation with Self-supervised Learning [2.435006380732194]
テキスト対とテキスト対を自動的に検出する新しい手法を提案する。
私たちのコアアイデアは、異なるソースから一致するキャプションを持つ画像のみを必要とする自己監督型のトレーニング戦略です。
本手法は82%のコンテキスト外検出精度を実現する。
論文 参考訳(メタデータ) (2021-01-15T19:00:42Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。