Fugu-MT 論文翻訳(概要): ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations

論文の概要: ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations

arxiv url: http://arxiv.org/abs/2306.08141v1
Date: Tue, 13 Jun 2023 21:10:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 22:41:30.977138
Title: ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations
Title（参考訳）: ArtWhisperer:芸術創造における人間とAIのインタラクションを特徴付けるデータセット
Authors: Kailas Vodrahalli and James Zou
Abstract要約: 本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。我々は、異なるタイプのターゲットイメージと2つの異なるモデルでAIのステアビリティを定量化し比較し、都市と自然世界のイメージが芸術的、幻想的なイメージよりもステアビリティが高いことを発見した。
参考スコア（独自算出の注目度）: 13.41855784689782
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As generative AI becomes more prevalent, it is important to study how human users interact with such models. In this work, we investigate how people use text-to-image models to generate desired target images. To study this interaction, we created ArtWhisperer, an online game where users are given a target image and are tasked with iteratively finding a prompt that creates a similar-looking image as the target. Through this game, we recorded over 50,000 human-AI interactions; each interaction corresponds to one text prompt created by a user and the corresponding generated image. The majority of these are repeated interactions where a user iterates to find the best prompt for their target image, making this a unique sequential dataset for studying human-AI collaborations. In an initial analysis of this dataset, we identify several characteristics of prompt interactions and user strategies. People submit diverse prompts and are able to discover a variety of text descriptions that generate similar images. Interestingly, prompt diversity does not decrease as users find better prompts. We further propose to a new metric the study the steerability of AI using our dataset. We define steerability as the expected number of interactions required to adequately complete a task. We estimate this value by fitting a Markov chain for each target task and calculating the expected time to reach an adequate score in the Markov chain. We quantify and compare AI steerability across different types of target images and two different models, finding that images of cities and natural world images are more steerable than artistic and fantasy images. These findings provide insights into human-AI interaction behavior, present a concrete method of assessing AI steerability, and demonstrate the general utility of the ArtWhisperer dataset.
Abstract（参考訳）: 生成的AIがより普及するにつれて、人間がそのようなモデルとどのように相互作用するかを研究することが重要である。本研究では,テキストから画像へのモデルを用いて目標画像を生成する方法について検討する。このインタラクションを研究するために,artwhispererを開発した。artwhispererは,ユーザがターゲットイメージを与えられるオンラインゲームで,ターゲットと同じようなイメージを生成するプロンプトを反復的に発見する作業を行う。このゲームを通じて5万以上の人間-aiインタラクションを記録し,それぞれのインタラクションは,ユーザが生成した1つのテキストプロンプトと対応する画像に対応する。その多くは、ユーザがターゲットイメージの最良のプロンプトを見つけるために反復的なインタラクションであり、これは人間とAIのコラボレーションを研究するためのユニークなシーケンシャルデータセットである。本データセットの初期分析では,迅速なインタラクションとユーザ戦略のいくつかの特徴を同定する。人々は多様なプロンプトを提出し、類似した画像を生成するさまざまなテキスト記述を発見できる。興味深いことに、ユーザがより良いプロンプトを見つけるため、迅速な多様性は低下しない。さらに、我々のデータセットを用いたAIのステアビリティの研究のための新しい指標を提案する。我々は、タスクを適切に完了するために必要な相互作用の期待数として、ステアビリティを定義する。この値は、各目標タスクにマルコフ連鎖を適合させ、マルコフ連鎖の適切なスコアに到達するための期待時間を計算することで推定する。我々は、異なるタイプのターゲットイメージと2つの異なるモデルでAIのステアビリティを定量化し比較し、都市と自然世界のイメージが芸術的、幻想的なイメージよりもステアビリティが高いことを発見した。これらの知見は、AIとAIの相互作用に関する洞察を与え、AIのステアビリティを評価する具体的な方法を示し、ArtWhispererデータセットの汎用性を実証する。

関連論文リスト

MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans [60.6183017400517]
マルチヒューマンテストベンチ(MultiHuman-Testbench)は、マルチヒューマン生成のための生成モデルを厳格に評価するための新しいベンチマークである。ベンチマークには1800のサンプルが含まれており、慎重にキュレートされたテキストプロンプトが含まれており、単純で複雑な人間の動作を記述している。顔数,ID類似度,迅速なアライメント,行動検出を定量化するために,4つの重要な指標を用いた多面評価スイートを提案する。
論文参考訳（メタデータ） (2025-06-25T23:00:57Z)
D-Judge: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance [19.760989919485894]
視覚的に魅力的なコンテンツを生成する高度なAI生成モデルにもかかわらず、自然画像と比較して大きな違いは残る。 5,000の自然画像と440,000以上のAI生成画像(AIGI)からなる,DANIという大規模マルチモーダルデータセットを構築した。そして、D-Judgeという重要な疑問に答えるために設計されたベンチマークを紹介します。
論文参考訳（メタデータ） (2024-12-23T15:08:08Z)
Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文参考訳（メタデータ） (2024-12-07T18:44:38Z)
Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.55963742878684]
我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
論文参考訳（メタデータ） (2024-10-28T23:10:06Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
Human Learning by Model Feedback: The Dynamics of Iterative Prompting with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文参考訳（メタデータ） (2023-11-20T19:28:52Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Learning Human-Human Interactions in Images from Weak Textual Supervision [15.71242350678679]
静止画像から自由テキストとして人間と人間の相互作用を学習する新しいパラダイムを提案する。本手法により生成された擬似ラベルは,キャプションモデルのトレーニングに利用できることを示す。私たちはWaldoやWendaとともにコードと擬似ラベルを公開します。
論文参考訳（メタデータ） (2023-04-27T11:32:48Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
ConsNet: Learning Consistency Graph for Zero-Shot Human-Object Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文参考訳（メタデータ） (2020-08-14T09:11:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。