論文の概要: Exploring Language Patterns of Prompts in Text-to-Image Generation and Their Impact on Visual Diversity
- arxiv url: http://arxiv.org/abs/2504.14125v1
- Date: Sat, 19 Apr 2025 00:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:56:34.507646
- Title: Exploring Language Patterns of Prompts in Text-to-Image Generation and Their Impact on Visual Diversity
- Title(参考訳): テキスト・画像生成におけるプロンプトの言語パターンの探索と視覚的多様性への影響
- Authors: Maria-Teresa De Rosa Palmini, Eva Cetinic,
- Abstract要約: 本研究では,プロンプト作成時にユーザが行う言語的,意味的な選択について検討する。
CivitAIプラットフォーム上のCiviverseデータセットから600万以上のプロンプトを分析します。
視覚的多様性を定量化するためにVendiスコアを用いて,プロンプトにおける語彙的類似性と生成画像の視覚的類似性との間に明確な相関関係を示す。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Following the initial excitement, Text-to-Image (TTI) models are now being examined more critically. While much of the discourse has focused on biases and stereotypes embedded in large-scale training datasets, the sociotechnical dynamics of user interactions with these models remain underexplored. This study examines the linguistic and semantic choices users make when crafting prompts and how these choices influence the diversity of generated outputs. Analyzing over six million prompts from the Civiverse dataset on the CivitAI platform across seven months, we categorize users into three groups based on their levels of linguistic experimentation: consistent repeaters, occasional repeaters, and non-repeaters. Our findings reveal that as user participation grows over time, prompt language becomes increasingly homogenized through the adoption of popular community tags and descriptors, with repeated prompts comprising 40-50% of submissions. At the same time, semantic similarity and topic preferences remain relatively stable, emphasizing common subjects and surface aesthetics. Using Vendi scores to quantify visual diversity, we demonstrate a clear correlation between lexical similarity in prompts and the visual similarity of generated images, showing that linguistic repetition reinforces less diverse representations. These findings highlight the significant role of user-driven factors in shaping AI-generated imagery, beyond inherent model biases, and underscore the need for tools and practices that encourage greater linguistic and thematic experimentation within TTI systems to foster more inclusive and diverse AI-generated content.
- Abstract(参考訳): 最初の興奮の後、テキスト・ツー・イメージ・モデル(TTI)がより批判的に検討されている。
講演の多くは、大規模なトレーニングデータセットに埋め込まれたバイアスやステレオタイプに焦点が当てられているが、これらのモデルとのユーザインタラクションの社会技術的ダイナミクスはいまだ解明されていない。
本研究は,創造的プロンプトにおける言語的選択と意味的選択が生成した出力の多様性にどのように影響するかを考察する。
CivitAIプラットフォーム上のCiviverseデータセットから7ヶ月にわたって600万以上のプロンプトを分析し、ユーザを言語実験のレベルに基づいて3つのグループに分類する。
その結果,ユーザ参加が時間とともに増加するにつれて,コミュニティタグやディスクリプタの採用によって,プロンプト言語が均質化し,40~50%の投稿が繰り返されることが判明した。
同時に、意味的類似性とトピックの嗜好は比較的安定しており、一般的な主題や表面美学を強調している。
視覚的多様性を定量化するためにVendiスコアを用いて,プロンプトにおける語彙的類似性と生成画像の視覚的類似性との間に明確な相関関係を示す。
これらの発見は、AI生成のイメージを形成する上で、ユーザー主導の要因が、固有のモデルバイアスを超えて重要な役割を担い、より包括的で多様なAI生成コンテンツを育むために、TTIシステム内でより言語的およびテーマ的な実験を促進するツールやプラクティスの必要性を浮き彫りにしている。
関連論文リスト
- Improving Linguistic Diversity of Large Language Models with Possibility Exploration Fine-Tuning [23.456302461693053]
PEFT(Possibility Exploration Fine-Tuning)は、大規模言語モデル(LLM)のテキストの多様性を高めるためのタスクに依存しないフレームワークである。
PEFT は LLM 出力の多様性を著しく向上させる。
また、対話システムにおける人口統計バイアスを顕著に低減することができる。
論文 参考訳(メタデータ) (2024-12-04T14:23:16Z) - KnowledgeVIS: Interpreting Language Models by Comparing
Fill-in-the-Blank Prompts [12.131691892960502]
本稿では,言語モデルを解釈するためのヒューマン・イン・ザ・ループ視覚分析システムであるKnowledgeVisを紹介する。
文間の予測を比較することで、KnowledgeVisは、訓練中に学習した言語モデルと自然言語タスクを直感的に結びつける学習された関連性を明らかにする。
論文 参考訳(メタデータ) (2024-03-07T18:56:31Z) - The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text [29.586404361715054]
本研究では,前任者が生成した合成データに対する学習言語モデルの影響について検討した。
その結果,連続反復によるモデル出力の多様性の連続的な低下が明らかとなった。
本研究は,言語モデルの言語能力に対する訓練手法の長期的影響を慎重に検討することの必要性を強調した。
論文 参考訳(メタデータ) (2023-11-16T11:31:50Z) - Towards Generalizable SER: Soft Labeling and Data Augmentation for
Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech [3.86122440373248]
段階的な感情的強度を捉えるソフトラベルシステムを提案する。
コントラスト学習にインスパイアされたWhisperエンコーダとデータ拡張手法を用いて,感情の時間的ダイナミクスを強調する。
Hume-Prosodyを微調整した後、オープンソースモデルウェイトと最初の有望な結果を公開する。
論文 参考訳(メタデータ) (2023-11-15T00:09:21Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。