論文の概要: Synthesis and Perceptual Scaling of High Resolution Natural Images Using Stable Diffusion
- arxiv url: http://arxiv.org/abs/2410.13034v1
- Date: Wed, 16 Oct 2024 20:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:32.266126
- Title: Synthesis and Perceptual Scaling of High Resolution Natural Images Using Stable Diffusion
- Title(参考訳): 安定拡散を用いた高分解能自然画像の合成と知覚スケーリング
- Authors: Leonardo Pettini, Carsten Bogler, Christian Doeller, John-Dylan Haynes,
- Abstract要約: 我々は、6つのカテゴリから18個のオブジェクトを持つ写真リアル画像のカスタム刺激セットを開発する。
各オブジェクトに対して、知覚連続体に沿って順序付けられた10のグレードの変種を生成しました。
このイメージセットは、視覚知覚、注意、短期記憶、長期記憶の研究に注目されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Natural scenes are of key interest for visual perception. Previous work on natural scenes has frequently focused on collections of discrete images with considerable physical differences from stimulus to stimulus. For many purposes it would, however, be desirable to have sets of natural images that vary smoothly along a continuum (for example in order to measure quantitative properties such as thresholds or precisions). This problem has typically been addressed by morphing a source into a target image. However, this approach yields transitions between images that primarily follow their low-level physical features and that can be semantically unclear or ambiguous. Here, in contrast, we used a different approach (Stable Diffusion XL) to synthesise a custom stimulus set of photorealistic images that are characterized by gradual transitions where each image is a clearly interpretable but unique exemplar from the same category. We developed natural scene stimulus sets from six categories with 18 objects each. For each object we generated 10 graded variants that are ordered along a perceptual continuum. We validated the image set psychophysically in a large sample of participants, ensuring that stimuli for each exemplar have varying levels of perceptual confusability. This image set is of interest for studies on visual perception, attention and short- and long-term memory.
- Abstract(参考訳): 自然のシーンは視覚的知覚にとって重要な関心事である。
自然のシーンに関するこれまでの研究は、刺激から刺激への身体的差異がかなり大きい、離散的なイメージの収集にしばしば焦点を合わせてきた。
しかし、多くの目的のために、連続体(例えば閾値や精度などの定量的性質を測定するために)に沿って滑らかに変化する自然像の集合を持つことが望ましい。
この問題は典型的には、ソースをターゲットイメージに変形させることによって解決されてきた。
しかし、このアプローチは、主に低レベルの物理的特徴に従い、意味的に不明瞭か曖昧である画像間の遷移をもたらす。
対照的に、我々は異なるアプローチ(Stable Diffusion XL)を用いて、各画像が明らかに解釈可能であるが、同じカテゴリのユニークな例である漸進的な遷移を特徴とする、フォトリアリスティック画像のカスタム刺激セットを合成した。
自然環境刺激セットを18個の対象を持つ6つのカテゴリから作成した。
各オブジェクトに対して、知覚連続体に沿って順序付けられた10のグレードの変種を生成しました。
被験者の多数のサンプルで精神物理学的に画像セットを検証し,各被験者の刺激が知覚の難易度に異なることを確認した。
このイメージセットは、視覚知覚、注意、短期記憶、長期記憶の研究に注目されている。
関連論文リスト
- Image Segmentation via Divisive Normalization: dealing with environmental diversity [0.8796261172196743]
ディバイシブ・ノーマライゼーションを付加したセグメンテーションU-ネットをトレーニング条件から遠ざかるようにした。
シーンは、そのラディアンスレベルとダイナミックレンジ(昼夜)に応じて分類し、無彩色/彩色コントラストに応じて分類する。
その結果、ディバイシブ正規化を伴うニューラルネットワークは、すべてのシナリオでより良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:38:27Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images [34.02058539403381]
我々は、人間の意味的知識を活用して、偽画像検出のフレームワークに含まれる可能性を調べる。
予備的な統計的分析により、人間が本物の画像や変化した画像をどのように知覚するかの特徴的なパターンを探索する。
論文 参考訳(メタデータ) (2024-03-13T19:56:30Z) - Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting
the Variation in Human Signals during Visuo-Linguistic Processes [4.518404103861656]
本研究では,ビジュオ言語信号の変動の性質について検討し,それらが相互に相関していることを確認した。
この結果から,画像の特性から変化が生じると仮定し,事前学習された視覚エンコーダによって符号化された画像表現が,そのような変化を捉えることができるかどうかを考察する。
以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:11:16Z) - Diversity and Diffusion: Observations on Synthetic Image Distributions
with Stable Diffusion [6.491645162078057]
Text-to-image (TTI)システムにより、単純なテキストプロンプトでリアルな画像を作成することができる。
これまでに行われたすべての実験において、合成画像のみで訓練された分類器は推論時に性能が良くない。
この課題に対するTTIシステムの有用性を制限する4つの問題:曖昧さ、プロンプトへの順守、多様性の欠如、基礎となる概念を表現できないこと。
論文 参考訳(メタデータ) (2023-10-31T18:05:15Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。