論文の概要: Training Priors Predict Text-To-Image Model Performance
- arxiv url: http://arxiv.org/abs/2306.01755v1
- Date: Tue, 23 May 2023 04:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 14:08:35.421815
- Title: Training Priors Predict Text-To-Image Model Performance
- Title(参考訳): テキストと画像のモデルの性能を予測するトレーニング
- Authors: Charles Lovering and Ellie Pavlick
- Abstract要約: 本稿では,Stablediffusion 2.1 text-to-imageモデルで直感性を直接検証する。
これらのプロンプトのバックボーンを形成するSVOトリアードを見ると、トレーニングデータにSVOトリアードが現れる頻度が高ければ多いほど、モデルがそのトリアードに整列した画像を生成することができる。
- 参考スコア(独自算出の注目度): 20.86261546611472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models can often generate some relations, i.e., "astronaut
riding horse", but fail to generate other relations composed of the same basic
parts, i.e., "horse riding astronaut". These failures are often taken as
evidence that the models rely on training priors rather than constructing novel
images compositionally. This paper tests this intuition directly on the
stablediffusion 2.1 text-to-image model. By looking at the subject-verb-object
(SVO) triads that form the backbone of these prompts (e.g., "astronaut",
"ride", "horse"), we find that the more often an SVO triad appears in the
training data, the better the model can generate an image aligned with that
triad. Here, by aligned we mean that each of the terms appears in the generated
image in the proper relation to each other. However, this increased frequency
also diminishes how well the model can generate an image aligned with the
flipped triad. For example, if "astronaut riding horse" appears frequently in
the training data, the image for "horse riding astronaut" will tend to be
poorly aligned. We also find that models often struggle to generate terms in
atypical roles, e.g., if "horse" is more often the semantic patient (object),
the model might struggle to visualize it as a semantic agent (subject). Our
results thus show that current models are biased to generate images aligned
with relations seen in training and provide important new data in the ongoing
debate on whether these text-to-image models employ abstract compositional
structure in a traditional sense, or rather, interpolate between relations
explicitly seen in the training data.
- Abstract(参考訳): テキストから画像へのモデルは、しばしばいくつかの関係、すなわち"astronaut riding horse"を生成するが、同じ基本部分からなる他の関係、すなわち" horse riding astronaut"を生成することができない。
これらの失敗はしばしば、モデルが新しいイメージを合成的に構築するのではなく、トレーニング前のものに依存するという証拠として捉えられる。
本稿では,この直感をStablediffusion 2.1 text-to-imageモデルで直接検証する。
これらのプロンプトのバックボーンを形成するsubject-verb-object(svo)のトライアド(例えば、"astronaut", "ride", " horse")を見ると、トレーニングデータにsvoのトライアドが頻繁に現れるほど、モデルがそのトライアドと整合したイメージを生成することができる。
ここでは、各項が互いに適切な関係で生成された画像に現れることを意味する。
しかし、この周波数の増加は、モデルがフリップ三重項に整列した画像をいかにうまく生成できるかを低下させる。
例えば、トレーニングデータに"astronaut riding horse"が頻繁に現れる場合、" horse riding astronaut"のイメージは不十分なアライメントになる傾向がある。
また、モデルが非定型的な役割(例えば、"馬"がより意味的患者(オブジェクト)である場合、モデルが意味的エージェント(サブジェクト)としてそれを視覚化するのに苦労することがある。
以上の結果から,現在のモデルでは,従来の意味において抽象的な構成構造を採用するか,あるいはトレーニングデータで明確に見られる関係間の補間を行うかという議論において,トレーニングで見られる関係に整合した画像を生成し,重要な新たなデータを提供する傾向が示唆された。
関連論文リスト
- How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold [50.33428591760124]
学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。
我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:28:14Z) - ZebraPose: Zebra Detection and Pose Estimation using only Synthetic Data [0.2302001830524133]
3次元シミュレータで生成された合成データを用いて、ゼブラの検知と2次元ポーズ推定の両方に使用できる最初の合成データセットを得る。
複数の実世界および合成データセット上で検出と2次元ポーズ推定モデルを広範囲にトレーニングし、ベンチマークする。
これらの実験は、スクラッチから訓練されたモデルと合成データのみで、ゼブラの実際の画像に一貫して一般化できることを示す。
論文 参考訳(メタデータ) (2024-08-20T13:28:37Z) - AWOL: Analysis WithOut synthesis using Language [57.31874938870305]
言語を利用して既存の3次元形状モデルを制御し、新しい形状を作り出す。
トレーニング中に存在しない新しい動物をテキストで生成できることが示されています。
この研究は、3D木を生成するための最初の言語駆動の手法でもある。
論文 参考訳(メタデータ) (2024-04-03T20:04:44Z) - An Analysis of Human Alignment of Latent Diffusion Models [4.301861805545143]
大量のデータに基づいて訓練された拡散モデルは、画像合成に顕著な性能を示した。
それらは、人間とのエラーの整合性が高く、分類に使用するときのテクスチャバイアスも低い。
このような表現が3重の奇数ワンアウトタスクにおいて、人間の反応にどの程度うまく一致しているかを分析する。
論文 参考訳(メタデータ) (2024-03-13T12:31:08Z) - Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR [103.51937218213774]
本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
論文 参考訳(メタデータ) (2023-03-24T03:34:33Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - MagicPony: Learning Articulated 3D Animals in the Wild [81.63322697335228]
そこで本研究では,オブジェクトカテゴリのワンビュー画像から,この予測器を純粋に学習するMagicPonyを提案する。
その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。
論文 参考訳(メタデータ) (2022-11-22T18:59:31Z) - Rare Wildlife Recognition with Self-Supervised Representation Learning [0.0]
本稿では,自己指導型プレトレーニングに頼って,必要なトレーニングデータの量を削減する手法を提案する。
MoCo, CLD, および幾何拡張の組み合わせは, ImageNetで事前訓練された従来のモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-29T17:57:38Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。