論文の概要: Civiverse: A Dataset for Analyzing User Engagement with Open-Source Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2408.15261v1
- Date: Sat, 10 Aug 2024 21:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-01 16:42:01.570486
- Title: Civiverse: A Dataset for Analyzing User Engagement with Open-Source Text-to-Image Models
- Title(参考訳): Civiverse: オープンソーステキスト・画像モデルによるユーザエンゲージメント分析用データセット
- Authors: Maria-Teresa De Rosa Palmini, Laura Wagner, Eva Cetinic,
- Abstract要約: 我々は、何百万もの画像と関連するメタデータを含むCiviverseプロンプトデータセットを解析する。
本稿では,テキストプロンプトのセマンティックな特徴について,プロンプト解析に着目する。
本研究は, 意味的コンテンツの均質化に焦点をあてた上で, 明示的コンテンツの生成を優先する傾向を示した。
- 参考スコア(独自算出の注目度): 0.7209758868768352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (TTI) systems, particularly those utilizing open-source frameworks, have become increasingly prevalent in the production of Artificial Intelligence (AI)-generated visuals. While existing literature has explored various problematic aspects of TTI technologies, such as bias in generated content, intellectual property concerns, and the reinforcement of harmful stereotypes, open-source TTI frameworks have not yet been systematically examined from a cultural perspective. This study addresses this gap by analyzing the CivitAI platform, a leading open-source platform dedicated to TTI AI. We introduce the Civiverse prompt dataset, encompassing millions of images and related metadata. We focus on prompt analysis, specifically examining the semantic characteristics of text prompts, as it is crucial for addressing societal issues related to generative technologies. This analysis provides insights into user intentions, preferences, and behaviors, which in turn shape the outputs of these models. Our findings reveal a predominant preference for generating explicit content, along with a focus on homogenization of semantic content. These insights underscore the need for further research into the perpetuation of misogyny, harmful stereotypes, and the uniformity of visual culture within these models.
- Abstract(参考訳): テキスト・ツー・イメージ(TTI)システム、特にオープンソースフレームワークを利用するシステムは、人工知能(AI)生成ビジュアルの生産においてますます普及している。
既存の文献では、生成されたコンテンツのバイアス、知的財産権の懸念、有害なステレオタイプの強化など、TTI技術の様々な問題点を探求しているが、オープンソースTTIフレームワークは、まだ文化的観点から体系的に検討されていない。
この研究は、TTI AI専用のオープンソースプラットフォームであるCitvitAIプラットフォームを分析して、このギャップに対処する。
我々は、何百万もの画像と関連するメタデータを含むCiviverseプロンプトデータセットを紹介する。
生成技術に関連する社会問題に対処するためには,特にテキストプロンプトの意味的特徴を考察することに注力する。
この分析は、ユーザの意図、好み、行動に関する洞察を与え、それによってこれらのモデルのアウトプットを形作る。
本研究は, 意味的コンテンツの均質化に焦点をあてた上で, 明示的コンテンツの生成を優先する傾向を示した。
これらの知見は、誤魔性、有害なステレオタイプ、そしてこれらのモデルにおける視覚文化の統一性について、さらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models [2.0718016474717196]
統合ビジョンと言語モデル(VLM)は、機械学習研究コミュニティ内のブラックボックスと見なされることが多い。
本稿では、画像領域と対応するテキストセグメント間の特定の関連をマッピングする画像テキスト整列人間の視覚的注意データセットを提案する。
次に、VLモデルによって生成された内部のヒートマップとこのデータセットを比較し、モデルの決定プロセスを分析し、よりよく理解できるようにします。
論文 参考訳(メタデータ) (2024-10-06T20:11:53Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - A Survey on Personalized Content Synthesis with Diffusion Models [57.01364199734464]
PCSは、特定のユーザ定義のプロンプトに対する関心の主題をカスタマイズすることを目的としている。
過去2年間で150以上の方法が提案されている。
本稿では,PCSの拡散モデルに着目した包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-09T04:36:04Z) - Explainable artificial intelligence approaches for brain-computer
interfaces: a review and design space [6.786321327136925]
本稿では、Brain-Computer Interfacesに適用された説明可能な人工知能技術の統合的な視点について述べる。
Brain-Computer Interfacesは、予測モデルを使用して、様々なハイテイクアプリケーションのために脳信号を解釈する。
BCI文学におけるXAIの統合的な視点は欠如している。
論文 参考訳(メタデータ) (2023-12-20T13:56:31Z) - Language Agents for Detecting Implicit Stereotypes in Text-to-image
Models at Scale [45.64096601242646]
テキスト・ツー・イメージモデルにおけるステレオタイプ検出に適した新しいエージェントアーキテクチャを提案する。
複数のオープンテキストデータセットに基づいたステレオタイプ関連ベンチマークを構築した。
これらのモデルは、個人的特性に関する特定のプロンプトに関して、深刻なステレオタイプを示すことが多い。
論文 参考訳(メタデータ) (2023-10-18T08:16:29Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Out of Context: A New Clue for Context Modeling of Aspect-based
Sentiment Analysis [54.735400754548635]
ABSAは、与えられた側面に関してレビューで表現された感情を予測することを目的としている。
与えられたアスペクトは、コンテキストモデリングプロセスにおけるコンテキストからの新たなヒントと見なされるべきである。
異なるバックボーンに基づいて複数のアスペクト認識コンテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2021-06-21T02:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。