論文の概要: Understanding Subjectivity through the Lens of Motivational Context in Model-Generated Image Satisfaction
- arxiv url: http://arxiv.org/abs/2403.05576v1
- Date: Tue, 27 Feb 2024 01:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 06:10:13.849080
- Title: Understanding Subjectivity through the Lens of Motivational Context in Model-Generated Image Satisfaction
- Title(参考訳): モデル生成画像におけるモチベーションコンテキストのレンズによる主観的理解
- Authors: Senjuti Dutta, Sherol Chen, Sunny Mak, Amnah Ahmad, Katherine Collins, Alena Butryna, Deepak Ramachandran, Krishnamurthy Dvijotham, Ellie Pavlick, Ravi Rajakumar,
- Abstract要約: 画像生成モデルは、様々なアプリケーションでユビキタスになる可能性がある。
これらのモデルは、しばしば、普遍的な標準を仮定する人間の品質判断を用いて微調整され評価される。
主観性とその影響の規模を定量化するために, 異なるユースケースにおいて, 人間のアノテータ間で評価がどう異なるかを測定する。
- 参考スコア(独自算出の注目度): 21.00784031928471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image generation models are poised to become ubiquitous in a range of applications. These models are often fine-tuned and evaluated using human quality judgments that assume a universal standard, failing to consider the subjectivity of such tasks. To investigate how to quantify subjectivity, and the scale of its impact, we measure how assessments differ among human annotators across different use cases. Simulating the effects of ordinarily latent elements of annotators subjectivity, we contrive a set of motivations (t-shirt graphics, presentation visuals, and phone background images) to contextualize a set of crowdsourcing tasks. Our results show that human evaluations of images vary within individual contexts and across combinations of contexts. Three key factors affecting this subjectivity are image appearance, image alignment with text, and representation of objects mentioned in the text. Our study highlights the importance of taking individual users and contexts into account, both when building and evaluating generative models
- Abstract(参考訳): 画像生成モデルは、様々なアプリケーションでユビキタスになる可能性がある。
これらのモデルはしばしば、普遍的な基準を仮定する人間の品質判断を用いて微調整され評価され、そのようなタスクの主観性を考慮できない。
主観性とその影響の規模を定量化するために, 異なるユースケースにおいて, 人間のアノテータ間で評価がどう異なるかを測定する。
従来のアノテータの主観性が潜伏する要素の影響をシミュレートし、クラウドソーシングタスクのセットをコンテキスト化するためのモチベーション(Tシャツグラフィックス、プレゼンテーションビジュアル、電話背景画像)のセットを探索する。
以上の結果から,人間の画像評価は個々の文脈やコンテキストの組み合わせによって異なることが明らかとなった。
この主観性に影響を与える3つの要因は、画像の外観、テキストとのイメージアライメント、テキストで言及されたオブジェクトの表現である。
本研究は,生成モデルの構築と評価において,個々のユーザとコンテキストを考慮に入れることの重要性を強調した。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - Composition and Deformance: Measuring Imageability with a Text-to-Image
Model [8.008504325316327]
生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。
提案手法と個人単語の人的判断との間には高い相関関係が認められた。
本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
論文 参考訳(メタデータ) (2023-06-05T18:22:23Z) - Affect-Conditioned Image Generation [0.9668407688201357]
本稿では,心理学的に検証された3成分アプローチを用いて,所望の感情によって条件付けられた画像を生成する手法を提案する。
まず、セマンティック埋め込みからテキストや画像の影響内容を推定するためにニューラルネットワークをトレーニングし、それを様々な生成モデルを制御するためにどのように使用できるかを実証する。
論文 参考訳(メタデータ) (2023-02-20T03:44:04Z) - Quantitative analysis of visual representation of sign elements in
COVID-19 context [2.9409535911474967]
本稿では, コンピュータ解析を用いて, 流行に言及した視覚的創造物に使用される要素を定量的に分析することを提案する。
The Covid Art MuseumのInstagramアカウントにまとめられた画像は、グローバルイベントに関する主観的な体験を表すために使用されるさまざまな要素を分析するために使用される。
本研究は, 画像に繰り返される要素が, 物語を創出するための要素と, サンプルで確立された関連関係を明らかにする。
論文 参考訳(メタデータ) (2021-12-15T15:54:53Z) - Automatic Main Character Recognition for Photographic Studies [78.88882860340797]
画像の主人公は、最初に見る人の注意を引く最も重要な人間である。
画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っている。
機械学習に基づく人間のポーズ推定を用いて主文字を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T18:14:45Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。