論文の概要: ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations
- arxiv url: http://arxiv.org/abs/2306.08141v4
- Date: Mon, 17 Jun 2024 11:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 13:00:14.914792
- Title: ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations
- Title(参考訳): ArtWhisperer:芸術創造における人間とAIのインタラクションを特徴付けるデータセット
- Authors: Kailas Vodrahalli, James Zou,
- Abstract要約: 本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。
我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。
- 参考スコア(独自算出の注目度): 26.4215586218117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As generative AI becomes more prevalent, it is important to study how human users interact with such models. In this work, we investigate how people use text-to-image models to generate desired target images. To study this interaction, we created ArtWhisperer, an online game where users are given a target image and are tasked with iteratively finding a prompt that creates a similar-looking image as the target. Through this game, we recorded over 50,000 human-AI interactions; each interaction corresponds to one text prompt created by a user and the corresponding generated image. The majority of these are repeated interactions where a user iterates to find the best prompt for their target image, making this a unique sequential dataset for studying human-AI collaborations. In an initial analysis of this dataset, we identify several characteristics of prompt interactions and user strategies. People submit diverse prompts and are able to discover a variety of text descriptions that generate similar images. Interestingly, prompt diversity does not decrease as users find better prompts. We further propose a new metric to quantify the steerability of AI using our dataset. We define steerability as the expected number of interactions required to adequately complete a task. We estimate this value by fitting a Markov chain for each target task and calculating the expected time to reach an adequate score in the Markov chain. We quantify and compare AI steerability across different types of target images and two different models, finding that images of cities and natural world images are more steerable than artistic and fantasy images. These findings provide insights into human-AI interaction behavior, present a concrete method of assessing AI steerability, and demonstrate the general utility of the ArtWhisperer dataset.
- Abstract(参考訳): 生成的AIがより普及するにつれて、人間のユーザがそのようなモデルとどのように相互作用するかを研究することが重要である。
本研究では,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
このインタラクションを研究するために、私たちはArtWhispererというオンラインゲームを作成しました。
このゲームを通して、5万以上の人間とAIのインタラクションを記録し、各インタラクションは、ユーザが生成した1つのテキストプロンプトと、それに対応する生成された画像に対応する。
その多くは、ユーザがターゲットイメージの最良のプロンプトを見つけるために反復的なインタラクションであり、これは人間とAIのコラボレーションを研究するためのユニークなシーケンシャルデータセットである。
本データセットの初期分析では,迅速なインタラクションとユーザ戦略のいくつかの特徴を同定する。
人々は多様なプロンプトを提出し、類似した画像を生成するさまざまなテキスト記述を発見できる。
興味深いことに、ユーザがより良いプロンプトを見つけるため、迅速な多様性は低下しない。
さらに,我々のデータセットを用いたAIの聴取可能性の定量化のための新しい指標を提案する。
我々は、タスクを適切に完了させるために必要な相互作用の期待数として、ステアビリティを定義する。
この値は、各目標タスクにマルコフ連鎖を適合させ、マルコフ連鎖の適切なスコアに到達するための期待時間を計算することで推定する。
我々は、異なるタイプのターゲットイメージと2つの異なるモデルでAIのステアビリティを定量化し比較し、都市と自然世界のイメージが芸術的、幻想的なイメージよりもステアビリティが高いことを発見した。
これらの知見は、AIとAIの相互作用に関する洞察を与え、AIのステアビリティを評価する具体的な方法を示し、ArtWhispererデータセットの汎用性を実証する。
関連論文リスト
- Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.55963742878684]
我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。
また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
論文 参考訳(メタデータ) (2024-10-28T23:10:06Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Human Learning by Model Feedback: The Dynamics of Iterative Prompting
with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。
これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。
ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文 参考訳(メタデータ) (2023-11-20T19:28:52Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Learning Human-Human Interactions in Images from Weak Textual
Supervision [15.71242350678679]
静止画像から自由テキストとして人間と人間の相互作用を学習する新しいパラダイムを提案する。
本手法により生成された擬似ラベルは,キャプションモデルのトレーニングに利用できることを示す。
私たちはWaldoやWendaとともにコードと擬似ラベルを公開します。
論文 参考訳(メタデータ) (2023-04-27T11:32:48Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。