論文の概要: What Do AI-Generated Images Want?
- arxiv url: http://arxiv.org/abs/2510.20350v2
- Date: Fri, 24 Oct 2025 09:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.256747
- Title: What Do AI-Generated Images Want?
- Title(参考訳): AI生成画像とは何か?
- Authors: Amanda Wasielewski,
- Abstract要約: 私は現代のAI画像生成ツールに照らしてW.J.T.ミッチェルの質問を再検討した。
AI生成画像は、基本的に抽象的であるため、具体性と具体性を求めていると私は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: W.J.T. Mitchell's influential essay 'What do pictures want?' shifts the theoretical focus away from the interpretative act of understanding pictures and from the motivations of the humans who create them to the possibility that the picture itself is an entity with agency and wants. In this article, I reframe Mitchell's question in light of contemporary AI image generation tools to ask: what do AI-generated images want? Drawing from art historical discourse on the nature of abstraction, I argue that AI-generated images want specificity and concreteness because they are fundamentally abstract. Multimodal text-to-image models, which are the primary subject of this article, are based on the premise that text and image are interchangeable or exchangeable tokens and that there is a commensurability between them, at least as represented mathematically in data. The user pipeline that sees textual input become visual output, however, obscures this representational regress and makes it seem like one form transforms into the other -- as if by magic.
- Abstract(参考訳): W.J.T.ミッチェルの影響力のあるエッセイ「絵は何を望んでいるのか?」は、絵を理解するという解釈的な行為から、それを創造する人間のモチベーションから、絵自体がエージェンシーの実体であり、欲しがっている可能性へと、理論的な焦点を移す。
この記事では、現代のAI画像生成ツールに照らして、Mitchell氏の質問を再考します。
抽象の本質に関する美術史的な言説から、AI生成した画像は基本的に抽象的であるため、特異性と具体性を求めていると私は主張する。
本論文の主要な主題であるマルチモーダルテキスト・ツー・イメージモデルは、テキストと画像は交換可能または交換可能トークンであり、少なくともデータにおいて数学的に表されるように、それら間には相似性が存在するという前提に基づいている。
しかし、テキスト入力が視覚的な出力になるユーザパイプラインは、この表現の回帰を曖昧にし、まるで魔法のように、あるフォームがもう一方に変換されるように見せかける。
関連論文リスト
- The Iconicity of the Generated Image [22.154465616964256]
人間がどのようにイメージを解釈し、生成するかは、私たちが露出した画像の影響を受けます。
ビジュアル生成AIモデルは、多くのトレーニングイメージに公開され、これに基づいて新しいイメージを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-09-19T23:59:43Z) - D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。
検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。
本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:22:58Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - AI-Generated Imagery: A New Era for the `Readymade' [0.7386189738262202]
本稿では、生成型AIシステムによって生成されたデジタルイメージが、どのようにしてアートと呼ばれるようになったかを検討することを目的とする。
我々は、既存の哲学的枠組みと言語理論を用いて、AI生成画像の一部が、芸術として考慮すべき「準備済み」として提示できることを示唆している。
論文 参考訳(メタデータ) (2023-07-12T09:25:56Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images [63.629345688220496]
ビジュアルコモンセンスのための新しいデータセットとベンチマークであるWHOOPS!を紹介します。
データセットは、デザイナによって作成された、意図的に常識を守るイメージで構成されています。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
論文 参考訳(メタデータ) (2023-03-13T16:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。