論文の概要: It's a Feature, Not a Bug: Measuring Creative Fluidity in Image Generators
- arxiv url: http://arxiv.org/abs/2406.18570v1
- Date: Mon, 3 Jun 2024 08:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 05:50:36.659183
- Title: It's a Feature, Not a Bug: Measuring Creative Fluidity in Image Generators
- Title(参考訳): 画像生成器の創造的な流動度を計測する「バグ」ではなく「バグ」
- Authors: Aditi Ramaswamy, Melane Navaratnarajah, Hana Chockler,
- Abstract要約: 本稿は,AIにおける創造的行動の一面を定義し,実証的に測定することを目的として,「素早い解釈の流動性」あるいは単に「流動性」を定量化する実験を行った。
流動性を研究するために,(2)初期「地中真実:イメージ」でシードされた自動生成プロンプトと画像のチェーンを作成すること,(3)既存の視覚的および意味的指標を用いてこれらのチェーンの破壊点を測定すること,(4)統計的検査と視覚的説明の両方を用いてこれらのチェーンを解析し,生成に使用する画像生成装置が顕著な流動性を示すかどうかを判断すること,といった明確な定義を導入する。
- 参考スコア(独自算出の注目度): 5.639451539396458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of freely available image generators, AI-generated art has become the centre of a series of heated debates, one of which concerns the concept of human creativity. Can an image generation AI exhibit ``creativity'' of the same type that artists do, and if so, how does that manifest? Our paper attempts to define and empirically measure one facet of creative behavior in AI, by conducting an experiment to quantify the "fluidity of prompt interpretation", or just "fluidity", in a series of selected popular image generators. To study fluidity, we (1) introduce a clear definition for it, (2) create chains of auto-generated prompts and images seeded with an initial "ground-truth: image, (3) measure these chains' breakage points using preexisting visual and semantic metrics, and (4) use both statistical tests and visual explanations to study these chains and determine whether the image generators used to produce them exhibit significant fluidity.
- Abstract(参考訳): 無償で利用できる画像生成装置の登場に伴い、AI生成アートは、人間の創造性の概念に関する一連の熱い議論の中心となっている。
画像生成AIは、アーティストと同じタイプの「創造性」を示すことができる。
本稿では,AIにおける創造的行動の1つの側面を定義し,実験的に測定する試みとして,選択された画像生成装置の「素早い解釈の流動性」や単に「流動性」を定量化する実験を行った。
流動性を研究するために,(1) 初期「地中真実」の画像を用いた自動生成プロンプトと画像のチェーンの作成,(3) 既存の視覚的および意味的指標を用いたこれらのチェーンの破壊点の測定,(4) 統計的検査と視覚的説明の両方を用いて,これらのチェーンを解析し,生成に使用する画像生成装置が流動性を示すか否かを判定する。
関連論文リスト
- The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks [5.708967043277477]
画像から透かしを除去できるビジュアルパラフレーズを提案する。
まず, KOSMOS-2 を用いた画像のキャプションを生成する。
拡散パイプラインのデノイングステップの間、システムはテキストキャプションによってガイドされる視覚的に類似した画像を生成する。
実験の結果,視覚的パラフレーズ攻撃は画像から透かしを効果的に除去できることが示された。
論文 参考訳(メタデータ) (2024-08-19T22:58:30Z) - How to Trace Latent Generative Model Generated Images without Artificial Watermark? [88.04880564539836]
潜在生成モデルによって生成された画像に関する潜在的な誤用に関する懸念が持ち上がっている。
検査されたモデルの生成された画像をトレースするために,レイトタントトラッカーと呼ばれる潜時反転に基づく手法を提案する。
提案手法は,検査したモデルと他の画像から生成された画像とを高精度かつ効率的に識別できることを示す。
論文 参考訳(メタデータ) (2024-05-22T05:33:47Z) - Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。
本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。
ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-07T20:55:39Z) - Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。
検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。
本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:22:58Z) - Diversity and Diffusion: Observations on Synthetic Image Distributions
with Stable Diffusion [6.491645162078057]
Text-to-image (TTI)システムにより、単純なテキストプロンプトでリアルな画像を作成することができる。
これまでに行われたすべての実験において、合成画像のみで訓練された分類器は推論時に性能が良くない。
この課題に対するTTIシステムの有用性を制限する4つの問題:曖昧さ、プロンプトへの順守、多様性の欠如、基礎となる概念を表現できないこと。
論文 参考訳(メタデータ) (2023-10-31T18:05:15Z) - Open Set Synthetic Image Source Attribution [9.179652505898332]
本稿では,合成画像の識別のためのメトリクス学習に基づく新しいアプローチを提案する。
本手法は, 発電機間での識別が可能な移動可能な埋め込みを学習することにより機能する。
オープンなシナリオで合成画像のソースを属性付けるアプローチの能力を実証する。
論文 参考訳(メタデータ) (2023-08-22T16:37:51Z) - Seeding Diversity into AI Art [1.393683063795544]
生成的敵ネットワーク(GAN)は、1つのイメージを真空で生成するが、製品が以前作成されたものとどのように異なるかという新しい概念は欠如している。
進化的アルゴリズムの新規性保存機構をGANの力と組み合わせたアルゴリズムが、創造的プロセスを善で斬新な出力へと意図的に導くことができると想定する。
論文 参考訳(メタデータ) (2022-05-02T10:40:52Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Toward Quantifying Ambiguities in Artistic Images [21.152039726639426]
本稿では,画像の集合の知覚的あいまいさを測定するためのアプローチを提案する。
観客は、異なる視聴時間の後、画像コンテンツを記述するよう依頼される。
Generative Adversarial Networksで作成した画像を使って実験を行う。
論文 参考訳(メタデータ) (2020-08-21T21:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。