Fugu-MT 論文翻訳(概要): Judge, Localize, and Edit: Ensuring Visual Commonsense Morality for Text-to-Image Generation

論文の概要: Judge, Localize, and Edit: Ensuring Visual Commonsense Morality for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2212.03507v2
Date: Fri, 9 Dec 2022 06:54:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 15:57:54.926792
Title: Judge, Localize, and Edit: Ensuring Visual Commonsense Morality for Text-to-Image Generation
Title（参考訳）: 判断,ローカライズ,編集:テキスト・画像生成のためのビジュアル・コモンセンスのモラルを保証する
Authors: Seongbeom Park, Suhong Moon, Jinkyu Kim
Abstract要約: テキスト・ツー・イメージ生成手法は高解像度で高品質な画像を生成する。これらのイメージは、コモンセンス道徳の観点から不適切な内容を含むべきではない。本稿では,合成画像の不道徳性を自動判定し,これらの画像を道徳的代替物として扱うことを目的とする。
参考スコア（独自算出の注目度）: 7.219077740523682
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image generation methods produce high-resolution and high-quality images, but these methods should not produce immoral images that may contain inappropriate content from the commonsense morality perspective. Conventional approaches often neglect these ethical concerns, and existing solutions are limited in avoiding immoral image generation. In this paper, we aim to automatically judge the immorality of synthesized images and manipulate these images into a moral alternative. To this end, we build a model that has the three main primitives: (1) our model recognizes the visual commonsense immorality of a given image, (2) our model localizes or highlights immoral visual (and textual) attributes that make the image immoral, and (3) our model manipulates a given immoral image into a morally-qualifying alternative. We experiment with the state-of-the-art Stable Diffusion text-to-image generation model and show the effectiveness of our ethical image manipulation. Our human study confirms that ours is indeed able to generate morally-satisfying images from immoral ones. Our implementation will be publicly available upon publication to be widely used as a new safety checker for text-to-image generation models.
Abstract（参考訳）: テキスト・ツー・イメージ生成手法は高解像度で高品質な画像を生成するが、これらの手法はコモンセンス道徳の観点から不適切な内容を含む不道徳な画像を生成するべきではない。従来のアプローチはこれらの倫理的懸念を無視することが多く、既存の解決策は不道徳な画像生成を避けるために限られている。本稿では,合成画像の不道徳性を自動判定し,これらの画像を道徳的代替物として扱うことを目的とする。この目的のために,(1)モデルが与えられた画像の視覚的コモンセンス不道徳性を認識し,(2)画像を不道徳にする不道徳な属性(およびテクスト的)を局所化し強調する,(3)不道徳なイメージを道徳的に適格な代替物として操作する,という3つのプリミティブを持つモデルを構築した。現状の安定拡散テキスト画像生成モデルを用いて実験を行い、倫理的画像操作の有効性を示す。人間の研究では、道徳的に満足なイメージを不道徳なイメージから生成できることが確認されました。我々の実装は、テキストから画像への生成モデルのための新しい安全性チェッカーとして広く使用されるように、出版と同時に公開される予定だ。

関連論文リスト

Visual moral inference and communication [4.5013963602617455]
本稿では,自然画像からの道徳的推論を支援する計算フレームワークを提案する。テキストのみに基づくモデルでは、視覚刺激に対する人間の道徳的判断のきめ細やかな把握ができないことがわかった。我々の研究は、視覚的道徳的推論を自動化し、公共メディアにおける視覚的道徳的コミュニケーションのパターンを発見するための道を開いた。
論文参考訳（メタデータ） (2025-04-12T00:46:27Z)
M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。 M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文参考訳（メタデータ） (2024-12-30T05:18:55Z)
Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文参考訳（メタデータ） (2024-07-17T05:21:41Z)
Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models [51.69735366140249]
我々はEthical-Lensというフレームワークを紹介した。 Ethical-Lensは、毒性とバイアス次元をまたいだテキストと画像のモデルにおける価値アライメントを保証する。実験の結果、Ethical-Lensは商業モデルに匹敵するレベルまでアライメント能力を向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T11:38:25Z)
Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-29T15:57:32Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
Mitigating Inappropriateness in Image Generation: Can there be Value in Reflecting the World's Ugliness? [18.701950647429]
様々な生成テキスト・画像モデルに対して,大規模に不適切な変性を示す。私たちは、人間の好みに合わせるために、世界の優美さのモデル表現を使用します。
論文参考訳（メタデータ） (2023-05-28T13:35:50Z)
DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Positive-Negative Prompt-Tuning [85.10894272034135]
大規模テキスト・画像生成モデルは,高解像度の高画質な高画質特徴画像の合成において,顕著な進歩を遂げている。最近の試みでは、参照画像集合から事前学習された拡散モデルの概念を教えるための微調整戦略や急速調整戦略が採用されている。本稿では,DreamArtistという,肯定的かつ効果的な学習手法を提案する。
論文参考訳（メタデータ） (2022-11-21T10:37:56Z)
Zero-shot Visual Commonsense Immorality Prediction [8.143750358586072]
道徳的AIシステムへの1つの方法は、人間の社会的行動の模倣と、システムにおけるある種の良い行動を促進することである。本稿では,視覚的コモンセンスの不道徳をゼロショットで予測するモデルを提案する。我々は,既存の道徳的・不道徳的なイメージデータセットを用いてモデルを評価し,人間の直観と一致した公正な予測性能を示す。
論文参考訳（メタデータ） (2022-11-10T12:30:26Z)
How well can Text-to-Image Generative Models understand Ethical Natural Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文参考訳（メタデータ） (2022-10-27T07:32:39Z)
Does Moral Code Have a Moral Code? Probing Delphi's Moral Philosophy [5.760388205237227]
本稿では,Allen AI Delphiモデルについて,標準化されたモラル性アンケートを用いて検討する。いくつかの矛盾にもかかわらず、デルフィは注釈プロセスに関わる人口集団に関する道徳的原則を反映する傾向にある。
論文参考訳（メタデータ） (2022-05-25T13:37:56Z)
Contextualized moral inference [12.574316678945195]
本稿では,道徳的ヴィグネットの直感的な判断をテキストベースで予測する手法を提案する。文脈化された表現は、代替表現よりもかなり有利であることを示す。
論文参考訳（メタデータ） (2020-08-25T00:34:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。