論文の概要: ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes
- arxiv url: http://arxiv.org/abs/2403.04701v4
- Date: Tue, 08 Oct 2024 20:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:41.290423
- Title: ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes
- Title(参考訳): ObjectCompose: 対象と背景の組成変化に対するビジョンベースモデルのレジリエンスの評価
- Authors: Hashmat Shadab Malik, Muhammad Huzaifa, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: 本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
- 参考スコア(独自算出の注目度): 64.57705752579207
- License:
- Abstract: Given the large-scale multi-modal training of recent vision-based models and their generalization capabilities, understanding the extent of their robustness is critical for their real-world deployment. In this work, we evaluate the resilience of current vision-based models against diverse object-to-background context variations. The majority of robustness evaluation methods have introduced synthetic datasets to induce changes to object characteristics (viewpoints, scale, color) or utilized image transformation techniques (adversarial changes, common corruptions) on real images to simulate shifts in distributions. Recent works have explored leveraging large language models and diffusion models to generate changes in the background. However, these methods either lack in offering control over the changes to be made or distort the object semantics, making them unsuitable for the task. Our method, on the other hand, can induce diverse object-to-background changes while preserving the original semantics and appearance of the object. To achieve this goal, we harness the generative capabilities of text-to-image, image-to-text, and image-to-segment models to automatically generate a broad spectrum of object-to-background changes. We induce both natural and adversarial background changes by either modifying the textual prompts or optimizing the latents and textual embedding of text-to-image models. We produce various versions of standard vision datasets (ImageNet, COCO), incorporating either diverse and realistic backgrounds into the images or introducing color, texture, and adversarial changes in the background. We conduct extensive experiments to analyze the robustness of vision-based models against object-to-background context variations across diverse tasks. Code https://github.com/Muhammad-Huzaifaa/ObjectCompose.
- Abstract(参考訳): 最近のビジョンベースモデルの大規模マルチモーダルトレーニングとその一般化能力を考えると、彼らの堅牢性の範囲を理解することは、彼らの実世界展開に不可欠である。
本研究では,現状の視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
多くのロバスト性評価手法は、オブジェクトの特性(視点、スケール、色)の変化を誘導する合成データセットや、実際の画像上の画像変換技術(逆転、一般的な腐敗)を導入し、分布の変化をシミュレートしている。
最近の研究は、大きな言語モデルと拡散モデルを活用して、背景の変化を発生させている。
しかしながら、これらのメソッドは変更を制御できないか、オブジェクトのセマンティクスを歪めているため、タスクには適さない。
一方,本手法では,オブジェクトの本来の意味や外観を保ちながら,多様なオブジェクト間変化を誘発することができる。
この目的を達成するために、テキスト・ツー・イメージ・トゥ・テキスト、画像・ツー・セグメンテーション・モデルの生成機能を活用し、オブジェクト・ツー・バックグラウンドの幅広い変化を自動的に生成する。
我々は,テキスト・ツー・イメージ・モデルのテキスト・プロンプトの変更や,テキスト・ツー・イメージ・モデルのテキスト・エンベッドを最適化することにより,自然な背景変化と敵対的背景変化を誘導する。
標準視覚データセット(ImageNet, COCO)の様々なバージョンを作成し、多様な背景と現実的な背景を画像に組み込んだり、背景に色、テクスチャ、敵対的な変化を導入したりします。
本研究では,視覚モデルが様々なタスクにまたがるオブジェクト・ツー・バックグラウンド・コンテキストの変動に対して頑健さを解析するための広範囲な実験を行った。
コード https://github.com/Muhammad-Huzaifaa/ObjectCompose.com
関連論文リスト
- Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - Salient Object-Aware Background Generation using Text-Guided Diffusion Models [4.747826159446815]
本稿では, 安定拡散と制御ネットアーキテクチャを用いて, 健全なオブジェクト出力処理にインペイント拡散モデルを適用するモデルを提案する。
提案手法は,複数のデータセットにまたがる標準的な視覚的メトリクスの劣化を伴わずに,オブジェクトの展開を平均3.6倍に削減する。
論文 参考訳(メタデータ) (2024-04-15T22:13:35Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。
画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文 参考訳(メタデータ) (2022-09-28T18:10:09Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。