論文の概要: Composition and Deformance: Measuring Imageability with a Text-to-Image
Model
- arxiv url: http://arxiv.org/abs/2306.03168v1
- Date: Mon, 5 Jun 2023 18:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 18:49:09.712168
- Title: Composition and Deformance: Measuring Imageability with a Text-to-Image
Model
- Title(参考訳): 合成と変形:テキストから画像へのモデルによる画像性の測定
- Authors: Si Wu, David A. Smith
- Abstract要約: 生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。
提案手法と個人単語の人的判断との間には高い相関関係が認められた。
本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
- 参考スコア(独自算出の注目度): 8.008504325316327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although psycholinguists and psychologists have long studied the tendency of
linguistic strings to evoke mental images in hearers or readers, most
computational studies have applied this concept of imageability only to
isolated words. Using recent developments in text-to-image generation models,
such as DALLE mini, we propose computational methods that use generated images
to measure the imageability of both single English words and connected text. We
sample text prompts for image generation from three corpora: human-generated
image captions, news article sentences, and poem lines. We subject these
prompts to different deformances to examine the model's ability to detect
changes in imageability caused by compositional change. We find high
correlation between the proposed computational measures of imageability and
human judgments of individual words. We also find the proposed measures more
consistently respond to changes in compositionality than baseline approaches.
We discuss possible effects of model training and implications for the study of
compositionality in text-to-image models.
- Abstract(参考訳): 精神言語学者や心理学者は長い間、聞き手や読み手の心的イメージを喚起する言語的ひもの傾向を研究してきたが、ほとんどの計算研究はこの概念を孤立した単語のみに適用している。
dalle mini などのテキスト対画像生成モデルにおける最近の進展を利用して,生成画像を用いて単一英単語と接続テキストの両方の可視性を測定する計算手法を提案する。
テキストプロンプトを3つのコーパスから抽出し,人間の生成した画像キャプション,ニュース記事の文章,詩行を抽出した。
これらのプロンプトを異なる変形に当てはめ、構成変化によって生じる可視性の変化を検出するモデルの能力を調べる。
提案手法と個人単語の人的判断との間には高い相関関係が認められた。
また,提案手法はベースラインアプローチよりも構成性の変化に一貫して対応している。
テキストから画像へのモデルの合成性研究におけるモデルトレーニングの効果と意義について考察する。
関連論文リスト
- Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Understanding Subjectivity through the Lens of Motivational Context in Model-Generated Image Satisfaction [21.00784031928471]
画像生成モデルは、様々なアプリケーションでユビキタスになる可能性がある。
これらのモデルは、しばしば、普遍的な標準を仮定する人間の品質判断を用いて微調整され評価される。
主観性とその影響の規模を定量化するために, 異なるユースケースにおいて, 人間のアノテータ間で評価がどう異なるかを測定する。
論文 参考訳(メタデータ) (2024-02-27T01:16:55Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Affect-Conditioned Image Generation [0.9668407688201357]
本稿では,心理学的に検証された3成分アプローチを用いて,所望の感情によって条件付けられた画像を生成する手法を提案する。
まず、セマンティック埋め込みからテキストや画像の影響内容を推定するためにニューラルネットワークをトレーニングし、それを様々な生成モデルを制御するためにどのように使用できるかを実証する。
論文 参考訳(メタデータ) (2023-02-20T03:44:04Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Cross-Modal Coherence for Text-to-Image Retrieval [35.82045187976062]
我々はテキスト・ツー・イメージ検索タスクに対して,クロスモーダル・コヒーレンス・モデル(Cross-Modal Coherence Model)を訓練する。
画像・テキスト・コヒーレンス関係を訓練したモデルでは,コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・モデルよりも,元来ターゲットテキストとペアリングした画像の検索が可能であった。
本研究は,テキストや画像のコモンセンス推論を捉える上で,異なるモダリティがコミュニケーションする方法,コヒーレンス関係の役割について考察した。
論文 参考訳(メタデータ) (2021-09-22T21:31:27Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。