論文の概要: Unmaking AI Imagemaking: A Methodological Toolkit for Critical
Investigation
- arxiv url: http://arxiv.org/abs/2307.09753v1
- Date: Wed, 19 Jul 2023 05:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:26:03.021509
- Title: Unmaking AI Imagemaking: A Methodological Toolkit for Critical
Investigation
- Title(参考訳): Unmaking AI Imagemaking: 批判的調査のための方法論ツールキット
- Authors: Luke Munn, Liam Magee, Vanicka Arora
- Abstract要約: 本稿では,AI画像モデルに対する3つの手法を提案する。
エコシステムの開放は、モデルの生産を取り巻く価値、構造、インセンティブを分析します。
出力をアンメイキングすると、モデルの生成結果が分析され、そのロジックが明らかになる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI image models are rapidly evolving, disrupting aesthetic production in many
industries. However, understanding of their underlying archives, their logic of
image reproduction, and their persistent biases remains limited. What kind of
methods and approaches could open up these black boxes? In this paper, we
provide three methodological approaches for investigating AI image models and
apply them to Stable Diffusion as a case study. Unmaking the ecosystem analyzes
the values, structures, and incentives surrounding the model's production.
Unmaking the data analyzes the images and text the model draws upon, with their
attendant particularities and biases. Unmaking the output analyzes the model's
generative results, revealing its logics through prompting, reflection, and
iteration. Each mode of inquiry highlights particular ways in which the image
model captures, "understands," and recreates the world. This accessible
framework supports the work of critically investigating generative AI image
models and paves the way for more socially and politically attuned analyses of
their impacts in the world.
- Abstract(参考訳): AI画像モデルは急速に進化し、多くの業界で美的生産を阻害している。
しかし、その基盤となるアーカイブ、画像再生の論理、持続的バイアスの理解は依然として限られている。
どのような方法やアプローチが、これらのブラックボックスを開くのか?
本稿では,AI画像モデルを解析し,安定拡散に適用するための3つの手法を提案する。
エコシステムの開放は、モデルの生産を取り巻く価値、構造、インセンティブを分析します。
データを解析して、モデルが引き起こす画像とテキストを、付随する特殊性やバイアスで生成する。
アウトプットを外すと、モデルの生成結果を分析し、プロンプト、リフレクション、イテレーションを通じてそのロジックを明らかにする。
それぞれの調査モードは、イメージモデルが捉え、"理解"し、世界を再現する特定の方法を強調する。
このアクセシブルなフレームワークは、生成的AIイメージモデルを批判的に調査する作業をサポートし、より社会的、政治的に直感的に世界への影響を分析するための道を開く。
関連論文リスト
- YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - Generative AI in Vision: A Survey on Models, Metrics and Applications [0.0]
生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。
これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。
本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。
論文 参考訳(メタデータ) (2024-02-26T07:47:12Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Explainable Multi-View Deep Networks Methodology for Experimental
Physics [0.20417058495510368]
物理実験は、X線スキャンや顕微鏡画像などの複数の画像表現を含むことが多い。
深層学習モデルはこれらの実験において教師あり分析に広く利用されている。
マルチビューデータが現れ、それぞれのサンプルは異なる角度、ソース、モダリティからのビューによって記述される。
マルチビューモデルには適切な説明責任が欠如しており、アーキテクチャのため説明が難しい。
論文 参考訳(メタデータ) (2023-08-16T08:13:38Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Morphological Image Analysis and Feature Extraction for Reasoning with
AI-based Defect Detection and Classification Models [10.498224499451991]
本稿では,画像から欠陥(DefChars)の形態的特徴を抽出するAI-Reasonerを提案する。
AI-Reasonerは、視覚化(チャート)とテキストの説明をエクスポートし、マスクによる欠陥検出と分類モデルによるアウトプットに関する洞察を提供する。
また、データ前処理と全体的なモデルパフォーマンスを強化する効果的な緩和戦略も提供する。
論文 参考訳(メタデータ) (2023-07-21T15:22:32Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - Beyond Explaining: Opportunities and Challenges of XAI-Based Model
Improvement [75.00655434905417]
説明可能な人工知能(XAI)は、高度に複雑な機械学習(ML)モデルに透明性をもたらす新たな研究分野である。
本稿では,機械学習モデルの諸特性を改善するために,XAIを実用的に応用する手法を概観する。
実験では,モデル一般化能力や推論などの特性を改善する上で,説明がどのように役立つのかを,おもちゃと現実的な設定で実証的に示す。
論文 参考訳(メタデータ) (2022-03-15T15:44:28Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。