論文の概要: What Do AI-Generated Images Want?
- arxiv url: http://arxiv.org/abs/2510.20350v2
- Date: Fri, 24 Oct 2025 09:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.256747
- Title: What Do AI-Generated Images Want?
- Title(参考訳): AI生成画像とは何か?
- Authors: Amanda Wasielewski,
- Abstract要約: 私は現代のAI画像生成ツールに照らしてW.J.T.ミッチェルの質問を再検討した。
AI生成画像は、基本的に抽象的であるため、具体性と具体性を求めていると私は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: W.J.T. Mitchell's influential essay 'What do pictures want?' shifts the theoretical focus away from the interpretative act of understanding pictures and from the motivations of the humans who create them to the possibility that the picture itself is an entity with agency and wants. In this article, I reframe Mitchell's question in light of contemporary AI image generation tools to ask: what do AI-generated images want? Drawing from art historical discourse on the nature of abstraction, I argue that AI-generated images want specificity and concreteness because they are fundamentally abstract. Multimodal text-to-image models, which are the primary subject of this article, are based on the premise that text and image are interchangeable or exchangeable tokens and that there is a commensurability between them, at least as represented mathematically in data. The user pipeline that sees textual input become visual output, however, obscures this representational regress and makes it seem like one form transforms into the other -- as if by magic.
- Abstract(参考訳): W.J.T.ミッチェルの影響力のあるエッセイ「絵は何を望んでいるのか?」は、絵を理解するという解釈的な行為から、それを創造する人間のモチベーションから、絵自体がエージェンシーの実体であり、欲しがっている可能性へと、理論的な焦点を移す。
この記事では、現代のAI画像生成ツールに照らして、Mitchell氏の質問を再考します。
抽象の本質に関する美術史的な言説から、AI生成した画像は基本的に抽象的であるため、特異性と具体性を求めていると私は主張する。
本論文の主要な主題であるマルチモーダルテキスト・ツー・イメージモデルは、テキストと画像は交換可能または交換可能トークンであり、少なくともデータにおいて数学的に表されるように、それら間には相似性が存在するという前提に基づいている。
しかし、テキスト入力が視覚的な出力になるユーザパイプラインは、この表現の回帰を曖昧にし、まるで魔法のように、あるフォームがもう一方に変換されるように見せかける。
関連論文リスト
- The Iconicity of the Generated Image [22.154465616964256]
人間がどのようにイメージを解釈し、生成するかは、私たちが露出した画像の影響を受けます。
ビジュアル生成AIモデルは、多くのトレーニングイメージに公開され、これに基づいて新しいイメージを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-09-19T23:59:43Z) - D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - It's a Feature, Not a Bug: Measuring Creative Fluidity in Image Generators [5.639451539396458]
本稿は,AIにおける創造的行動の一面を定義し,実証的に測定することを目的として,「素早い解釈の流動性」あるいは単に「流動性」を定量化する実験を行った。
流動性を研究するために,(2)初期「地中真実:イメージ」でシードされた自動生成プロンプトと画像のチェーンを作成すること,(3)既存の視覚的および意味的指標を用いてこれらのチェーンの破壊点を測定すること,(4)統計的検査と視覚的説明の両方を用いてこれらのチェーンを解析し,生成に使用する画像生成装置が顕著な流動性を示すかどうかを判断すること,といった明確な定義を導入する。
論文 参考訳(メタデータ) (2024-06-03T08:31:29Z) - Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。
検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。
本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:22:58Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - AI-Generated Imagery: A New Era for the `Readymade' [0.7386189738262202]
本稿では、生成型AIシステムによって生成されたデジタルイメージが、どのようにしてアートと呼ばれるようになったかを検討することを目的とする。
我々は、既存の哲学的枠組みと言語理論を用いて、AI生成画像の一部が、芸術として考慮すべき「準備済み」として提示できることを示唆している。
論文 参考訳(メタデータ) (2023-07-12T09:25:56Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images [63.629345688220496]
ビジュアルコモンセンスのための新しいデータセットとベンチマークであるWHOOPS!を紹介します。
データセットは、デザイナによって作成された、意図的に常識を守るイメージで構成されています。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
論文 参考訳(メタデータ) (2023-03-13T16:49:43Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z) - CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination [87.4797527628459]
我々はCoSIm(Comonsense Reasoning for Counterfactual Scene Imagination)と呼ばれる新しいタスク/データセットを導入する。
CoSImは、シーン変更の想像力を推論するAIシステムの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2022-07-08T15:28:23Z) - A Taxonomy of Prompt Modifiers for Text-To-Image Generation [6.903929927172919]
本稿では,3ヶ月のエスノグラフィー研究に基づいて,オンラインコミュニティの実践者が使用する6種類のプロンプト修飾剤を同定する。
プロンプト修飾子の新たな分類法は、テキスト・ツー・イメージ・ジェネレーションの実践を研究するための概念的な出発点となる。
本稿では,人間-コンピュータインタラクション分野における新しい創造的実践の機会について論じる。
論文 参考訳(メタデータ) (2022-04-20T06:15:50Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。