論文の概要: DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image
Models
- arxiv url: http://arxiv.org/abs/2210.10606v1
- Date: Wed, 19 Oct 2022 14:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:58:56.337765
- Title: DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image
Models
- Title(参考訳): DALLE-2は二重に見える:Text2画像モデルにおける単語対概念マッピングにおける欠陥
- Authors: Royi Rassin, Shauli Ravfogel, Yoav Goldberg
- Abstract要約: DALLE-2は各単語が解釈においてひとつの役割を持つという制約に従わないことを示す。
DALLE-2は、複数の感覚を持つ名詞の両感覚を同時に表現している。
- 参考スコア(独自算出の注目度): 53.29993651680099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the way DALLE-2 maps symbols (words) in the prompt to their
references (entities or properties of entities in the generated image). We show
that in stark contrast to the way human process language, DALLE-2 does not
follow the constraint that each word has a single role in the interpretation,
and sometimes re-use the same symbol for different purposes. We collect a set
of stimuli that reflect the phenomenon: we show that DALLE-2 depicts both
senses of nouns with multiple senses at once; and that a given word can modify
the properties of two distinct entities in the image, or can be depicted as one
object and also modify the properties of another object, creating a semantic
leakage of properties between entities. Taken together, our study highlights
the differences between DALLE-2 and human language processing and opens an
avenue for future study on the inductive biases of text-to-image models.
- Abstract(参考訳): 本研究では,DALLE-2が参照(生成画像中のエンティティのエンティティやプロパティ)のプロンプトのシンボル(単語)をマッピングする方法を検討する。
人間のプロセス言語とは対照的に、DALLE-2は各単語が解釈においてひとつの役割を持つという制約に従わず、時には異なる目的のために同じ記号を再利用する。
我々はこの現象を反映する一連の刺激を収集する:dalle-2が複数の感覚を持つ名詞の両感覚を一度に描写することを示し、ある単語が画像内の2つの異なる実体の特性を変更できること、または1つのオブジェクトとして表現でき、また別のオブジェクトの特性も変更できることを示し、エンティティ間の特性のセマンティックな漏洩を生じさせる。
本研究は、DALLE-2と人間の言語処理の違いを強調し、テキスト・画像モデルの帰納的バイアスに関する今後の研究の道を開く。
関連論文リスト
- Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z) - L2C: Describing Visual Differences Needs Semantic Understanding of
Individuals [65.87728481187625]
本稿では,2つの画像の意味構造を学習し,それぞれを学習しながら比較するラーニング・トゥ・コンペア・モデルを提案する。
我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。
論文 参考訳(メタデータ) (2021-02-03T03:44:42Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。