論文の概要: DiffusionWorldViewer: Exposing and Broadening the Worldview Reflected by
Generative Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2309.09944v2
- Date: Mon, 5 Feb 2024 16:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:05:56.690193
- Title: DiffusionWorldViewer: Exposing and Broadening the Worldview Reflected by
Generative Text-to-Image Models
- Title(参考訳): DiffusionWorldViewer: 生成テキスト・画像モデルによる世界観の表現と拡大
- Authors: Zoe De Simone and Angie Boggust and Arvind Satyanarayan and Ashia
Wilson
- Abstract要約: 本稿では、TTIモデルの世界観を出力層全体に公開し、出力画像とユーザ視点を整合させる編集ツールを提供するインタラクティブインターフェースを提案する。
18の多様なTTIユーザによるユーザスタディにおいて、DiffusionWorldViewerは、ユーザが生成した画像のさまざまな視点を表現し、現在のTTIモデルに反映されている限られた世界観に挑戦するのに役立つ。
- 参考スコア(独自算出の注目度): 15.854056880418808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative text-to-image (TTI) models produce high-quality images from short
textual descriptions and are widely used in academic and creative domains. Like
humans, TTI models have a worldview, a conception of the world learned from
their training data and task that influences the images they generate for a
given prompt. However, the worldviews of TTI models are often hidden from
users, making it challenging for users to build intuition about TTI outputs,
and they are often misaligned with users' worldviews, resulting in output
images that do not match user expectations. In response, we introduce
DiffusionWorldViewer, an interactive interface that exposes a TTI model's
worldview across output demographics and provides editing tools for aligning
output images with user perspectives. In a user study with 18 diverse TTI
users, we find that DiffusionWorldViewer helps users represent their varied
viewpoints in generated images and challenge the limited worldview reflected in
current TTI models.
- Abstract(参考訳): TTI(Generative Text-to-image)モデルは、短いテキスト記述から高品質な画像を生成し、学術的・創造的な領域で広く利用されている。
人間と同じように、TTIモデルは世界観を持ち、トレーニングデータから学んだ世界観と、与えられたプロンプトのために生成した画像に影響を与えるタスクを持っている。
しかし、TTIモデルのワールドビューはユーザから隠されていることが多く、ユーザがTTI出力に関する直観を構築することは困難であり、ユーザのワールドビューと不一致であることが多いため、ユーザの期待に合わない出力イメージが生成される。
そこで本稿では,tttiモデルのworldviewを出力層間で公開するインタラクティブインタフェースであるd diffusionworldviewerを紹介し,出力画像とユーザ視点を整合させる編集ツールを提供する。
18の多様なTTIユーザによるユーザスタディにおいて、DiffusionWorldViewerは、ユーザが生成した画像のさまざまな視点を表現し、現在のTTIモデルに反映されている限られた世界観に挑戦するのに役立つ。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - DiCTI: Diffusion-based Clothing Designer via Text-guided Input [5.275658744475251]
DiCTI (Diffusion-based Clothing Designer via Text-guided Input)は、デザイナーがテキスト入力のみを使用してファッション関連のアイデアを素早く視覚化できるようにする。
テキスト入力に条件付けされた強力な拡散ベースの塗装モデルを活用することで、DICTIは、さまざまな衣料デザインで、説得力のある高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2024-07-04T12:48:36Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Subject-driven Text-to-Image Generation via Apprenticeship Learning [83.88256453081607]
本研究では,テキスト・トゥ・イメージ・ジェネレータのSuTIについて述べる。
SuTIは見習いの学習を利用しており、そこでは、多数の主題固有のエキスパートモデルによって生成されたデータから、単一の見習いモデルが学習される。
SuTIは、InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothといった既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-04-01T00:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。