論文の概要: Attention is All You Want: Machinic Gaze and the Anthropocene
- arxiv url: http://arxiv.org/abs/2405.09734v1
- Date: Thu, 16 May 2024 00:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:40:20.251826
- Title: Attention is All You Want: Machinic Gaze and the Anthropocene
- Title(参考訳): 欲しがる全てに注意:マキニック・ゲイズと人類新世
- Authors: Liam Magee, Vanicka Arora,
- Abstract要約: 計算ビジョンは、人類新世の表現を解釈し、合成する。
我々は、この創発的な機械的視線が、その未来的な風景の組成を通してどのように見えるか、そして、観察され観察される人間の対象に向かって振り返るかを考察する。
様々な補助的、監視的、生成的役割において、コンピュータビジョンは人間の欲望を反映するだけでなく、独自の斜めの要求を明瞭に反映する。
- 参考スコア(独自算出の注目度): 2.4554686192257424
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This chapter experiments with ways computational vision interprets and synthesises representations of the Anthropocene. Text-to-image systems such as MidJourney and StableDiffusion, trained on large data sets of harvested images and captions, yield often striking compositions that serve, alternately, as banal reproduction, alien imaginary and refracted commentary on the preoccupations of Internet visual culture. While the effects of AI on visual culture may themselves be transformative or catastrophic, we are more interested here in how it has been trained to imagine shared human, technical and ecological futures. Through a series of textual prompts that marry elements of the Anthropocenic and Australian environmental vernacular, we examine how this emergent machinic gaze both looks out, through its compositions of futuristic landscapes, and looks back, towards an observing and observed human subject. In its varied assistive, surveillant and generative roles, computational vision not only mirrors human desire but articulates oblique demands of its own.
- Abstract(参考訳): この章は、計算ビジョンが人類新世の表現を解釈し、合成する方法を実験する。
MidJourneyやStableDiffusionといったテキスト・ツー・イメージのシステムは、収穫された画像やキャプションの大規模なデータセットに基づいて訓練され、しばしば、インターネット視覚文化の前兆に対する異国人の想像力と屈折的な注釈を交互に生み出す。
視覚文化に対するAIの影響は、それ自体が変革的あるいは破滅的なものかも知れませんが、人間、技術、生態的な未来を共有することをどのように想像するかについて、私たちはもっと興味を持っています。
人類学とオーストラリア環境学の要素を結合する一連のテキストプロンプトを通して、この創発的な機械的視線が、その未来的な風景の組成を通して、どのようにして、観察され観察される人間の対象に向かって振り返るかを考察する。
様々な補助的、監視的、生成的役割において、コンピュータビジョンは人間の欲望を反映するだけでなく、独自の斜めの要求を明瞭に反映する。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives [3.418398936676879]
この研究は、ソーシャルメディアプラットフォームにおける画像の社会的・文化的影響を大規模に調査するためのフレームワークであるFRESCOを提示する。
FRESCOは、最新のコンピュータビジョン技術を用いて、画像を数値変数と分類変数に分解する。
このフレームワークは、線や色のような基本的な視覚的特徴を含むプラスティックレベル、特定の実体や概念を表す図形レベル、特にオブザーバーとオブザーバーの視点を構築することに焦点を当てた啓示レベルという3つのレベルにわたって画像を分析する。
論文 参考訳(メタデータ) (2024-07-03T16:57:38Z) - (Re)framing Built Heritage through the Machinic Gaze [3.683202928838613]
機械学習とビジョン技術の普及は、遺産の新たな光学的レギュレーションを生み出している、と我々は主張する。
我々は,AIモデルによる遺産表現の再構成を概念化するために,「機械的視線」という用語を導入する。
論文 参考訳(メタデータ) (2023-10-06T23:48:01Z) - Contextually-rich human affect perception using multimodal scene
information [36.042369831043686]
我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T07:46:41Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Comparing Visual Reasoning in Humans and AI [66.89451296340809]
人間の行動や社会的相互作用を含む複雑なシーンのデータセットを作成しました。
ai/ヒューマンのシーン記述と、各シーンの他の5つの人間記述の地上真実との類似度を定量的に測定した。
結果は、機械/人間の合意シーンの説明は、私たちの複雑なシーンの人間/人間の合意よりもはるかに低いことを示しています。
論文 参考訳(メタデータ) (2021-04-29T04:44:13Z) - Style and Pose Control for Image Synthesis of Humans from a Single
Monocular View [78.6284090004218]
StylePoseGANは、ポーズと外観のコンディショニングを別々に受け入れる非制御発電機です。
我々のネットワークは、人間のイメージで完全に教師された方法で訓練され、ポーズ、外観、体の部分を切り離すことができる。
StylePoseGANは、一般的な知覚メトリクスで最新の画像生成忠実度を実現します。
論文 参考訳(メタデータ) (2021-02-22T18:50:47Z) - Learning to See: You Are What You See [3.0709727531116617]
このアートワークは、人工知能ニューラルネットワークのバイアスを調査し、現実世界の表現を操作するメカニズムを提供する。
これらの表現の探索は、世界の視覚的理解と/または視覚的語彙を開発する過程のメタファーとして機能する。
論文 参考訳(メタデータ) (2020-02-28T07:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。