論文の概要: A Sign That Spells: DALL-E 2, Invisual Images and The Racial Politics of
Feature Space
- arxiv url: http://arxiv.org/abs/2211.06323v1
- Date: Wed, 26 Oct 2022 17:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 14:15:05.638592
- Title: A Sign That Spells: DALL-E 2, Invisual Images and The Racial Politics of
Feature Space
- Title(参考訳): dall-e 2: 視覚画像と特徴空間の人種政治
- Authors: Fabian Offert and Thao Phan
- Abstract要約: 本稿では,DALL-E 2と関連するモデルに着目し,特徴抽出とセマンティック圧縮の文化的手法によって機能する画像作成の創発的アプローチとして論じる。
私たちは、DALL-E 2のようなシステムがいかにして人種のような政治的に健全な人間の概念を解き明かし、再構成するかを問うために、Open AIの失敗する努力を、彼らのシステムを「デビアス」するために使用しています。
- 参考スコア(独自算出の注目度): 3.468886360466784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we examine how generative machine learning systems produce a
new politics of visual culture. We focus on DALL-E 2 and related models as an
emergent approach to image-making that operates through the cultural techniques
of feature extraction and semantic compression. These techniques, we argue, are
inhuman, invisual, and opaque, yet are still caught in a paradox that is
ironically all too human: the consistent reproduction of whiteness as a latent
feature of dominant visual culture. We use Open AI's failed efforts to 'debias'
their system as a critical opening to interrogate how systems like DALL-E 2
dissolve and reconstitute politically salient human concepts like race. This
example vividly illustrates the stakes of this moment of transformation, when
so-called foundation models reconfigure the boundaries of visual culture and
when 'doing' anti-racism means deploying quick technical fixes to mitigate
personal discomfort, or more importantly, potential commercial loss.
- Abstract(参考訳): 本稿では,生成型機械学習システムが視覚文化の新しい政治をいかに生み出すかを検討する。
我々は,dall-e 2と関連モデルに着目し,特徴抽出と意味圧縮の文化的手法を応用した画像生成への創発的アプローチを提案する。
これらのテクニックは、非人間的、視覚的、不透明でありながら、皮肉なことに、非常に人間的すぎるパラドックスに巻き込まれている: 支配的な視覚文化の潜伏した特徴としての、白さの一貫して再現。
私たちは、DALL-E 2のようなシステムが、人種のような政治的に健全な人間の概念をいかに解消し、再構成するかを問う重要なオープニングとして、Open AIの失敗する努力を「デビアス」するために使用しています。
この例は、いわゆるファンデーションモデルが視覚文化の境界を再構成する時、そして"反人種差別"が個人的不愉快を和らげるために素早く技術的な修正を配置することを意味している時の、変革の瞬間を鮮明に説明します。
関連論文リスト
- Alien Recombination: Exploring Concept Blends Beyond Human Cognitive Availability in Visual Art [90.8684263806649]
視覚芸術の創造において、AIが人間の認知的限界を超越する方法を示します。
我々の研究は、視覚芸術には膨大な未探索の概念的組み合わせが含まれているという仮説を立てている。
本稿では,人間の認知能力を超えた概念の組み合わせを同定し,生成するエイリアン組換え法を提案する。
論文 参考訳(メタデータ) (2024-11-18T11:55:38Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。
これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - Attention is All You Want: Machinic Gaze and the Anthropocene [2.4554686192257424]
計算ビジョンは、人類新世の表現を解釈し、合成する。
我々は、この創発的な機械的視線が、その未来的な風景の組成を通してどのように見えるか、そして、観察され観察される人間の対象に向かって振り返るかを考察する。
様々な補助的、監視的、生成的役割において、コンピュータビジョンは人間の欲望を反映するだけでなく、独自の斜めの要求を明瞭に反映する。
論文 参考訳(メタデータ) (2024-05-16T00:00:53Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - AI and Blackness: Towards moving beyond bias and representation [0.8223798883838329]
AI倫理は人種に基づく表現と偏見という概念を超えてはならないと我々は主張する。
AIにおけるアンチブラックネスは、AIシステムの設計、開発、デプロイの基盤を提供する存在論的空間の検査をもっと必要とします。
論文 参考訳(メタデータ) (2021-11-05T18:24:54Z) - PACE: Posthoc Architecture-Agnostic Concept Extractor for Explaining
CNNs [3.0724051098062097]
画像の小さな部分領域を自動的に抽出するPosthoc Architecture-Agnostic Concept Extractor (PACE)を導入する。
PACEは、説明フレームワークの忠実さをブラックボックスモデルに密に統合する。
これらの実験の結果、PACEによって抽出された概念の72%以上が人間の解釈可能であることが示唆された。
論文 参考訳(メタデータ) (2021-08-31T13:36:15Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Towards decolonising computational sciences [0.0]
この闘争は2つの基本的なステップを必要としていると考えています。
フィールドの歴史と遺産に 不満を抱くことは 過去の過ちを 避ける鍵を握る
私たちは、これらの分野が、彼らの停滞したセクシスト、人種差別主義者の過去から離れて行くことを望んでいます。
論文 参考訳(メタデータ) (2020-09-29T18:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。