論文の概要: Responsible Visual Editing
- arxiv url: http://arxiv.org/abs/2404.05580v1
- Date: Mon, 8 Apr 2024 14:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:05:34.591649
- Title: Responsible Visual Editing
- Title(参考訳): 責任あるビジュアル編集
- Authors: Minheng Ni, Yeli Shen, Lei Zhang, Wangmeng Zuo,
- Abstract要約: 画像内の特定の概念を修正し、変更を最小化しながら、より責任を負うようにする。
有害な画像が研究に与える影響を緩和するため、人間の代わりにテディベアを用いて有害な情報を表現した透明でパブリックなデータセットAltBearを作成しました。
AltBearデータセットは、実画像に見られる有害な内容とよく一致し、一貫した実験的な評価を提供する。
- 参考スコア(独自算出の注目度): 53.45295657891099
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With recent advancements in visual synthesis, there is a growing risk of encountering images with detrimental effects, such as hate, discrimination, or privacy violations. The research on transforming harmful images into responsible ones remains unexplored. In this paper, we formulate a new task, responsible visual editing, which entails modifying specific concepts within an image to render it more responsible while minimizing changes. However, the concept that needs to be edited is often abstract, making it challenging to locate what needs to be modified and plan how to modify it. To tackle these challenges, we propose a Cognitive Editor (CoEditor) that harnesses the large multimodal model through a two-stage cognitive process: (1) a perceptual cognitive process to focus on what needs to be modified and (2) a behavioral cognitive process to strategize how to modify. To mitigate the negative implications of harmful images on research, we create a transparent and public dataset, AltBear, which expresses harmful information using teddy bears instead of humans. Experiments demonstrate that CoEditor can effectively comprehend abstract concepts within complex scenes and significantly surpass the performance of baseline models for responsible visual editing. We find that the AltBear dataset corresponds well to the harmful content found in real images, offering a consistent experimental evaluation, thereby providing a safer benchmark for future research. Moreover, CoEditor also shows great results in general editing. We release our code and dataset at https://github.com/kodenii/Responsible-Visual-Editing.
- Abstract(参考訳): 近年の視覚合成の進歩により、ヘイト、差別、プライバシー侵害などの有害な影響のある画像に遭遇するリスクが高まっている。
有害な画像を責任あるものに変換する研究は、まだ検討されていない。
本稿では、画像内の特定の概念を修正し、変更を最小限に抑えつつ、より責任を負うよう、視覚的な編集を行う新しいタスクを定式化する。
しかし、編集が必要な概念はしばしば抽象的であり、修正すべきものを見つけ出し、修正する計画を立てることは困難である。
これらの課題に対処するために,(1)修正すべきものに焦点を当てる知覚的認知プロセス,(2)修正の方法を整理する行動的認知プロセスという2段階の認知プロセスを通じて,大規模なマルチモーダルモデルを活用する認知編集者(CoEditor)を提案する。
有害な画像が研究に与える影響を緩和するため、人間の代わりにテディベアを用いて有害な情報を表現した透明でパブリックなデータセットAltBearを作成しました。
実験により、CoEditorは複雑なシーンにおける抽象概念を効果的に理解し、視覚的編集に責任のあるベースラインモデルの性能を大幅に上回ることを示した。
AltBearデータセットは、実際の画像に見られる有害なコンテンツとよく一致し、一貫した実験評価を提供し、将来の研究のための安全なベンチマークを提供する。
さらに、CoEditorは一般的な編集でも素晴らしい結果を示している。
コードとデータセットはhttps://github.com/kodenii/Responsible-Visual-Editing.comで公開しています。
関連論文リスト
- Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Text-to-image Editing by Image Information Removal [19.464349486031566]
原画像から色関連およびテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
CUB、Outdoor Scenes、COCOに関する我々の実験は、編集された画像が以前の作業よりも35%多く好まれていることを示している。
論文 参考訳(メタデータ) (2023-05-27T14:48:05Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。