論文の概要: Training Priors Predict Text-To-Image Model Performance
- arxiv url: http://arxiv.org/abs/2306.01755v2
- Date: Wed, 25 Oct 2023 02:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 20:30:57.778659
- Title: Training Priors Predict Text-To-Image Model Performance
- Title(参考訳): テキストと画像のモデルの性能を予測するトレーニング
- Authors: Charles Lovering and Ellie Pavlick
- Abstract要約: 本稿では,「宇宙飛行士」,「ライド」,「馬」などの刺激を助長する主観的主観的対象(SVO)三脚について考察する。
トレーニングデータにSVOトリアードが現れる頻度が高ければ多いほど、モデルがそのトリアードに整合した画像を生成することができる。
- 参考スコア(独自算出の注目度): 23.198469575245596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models can often generate some relations, i.e., "astronaut
riding horse", but fail to generate other relations composed of the same basic
parts, i.e., "horse riding astronaut". These failures are often taken as
evidence that models rely on training priors rather than constructing novel
images compositionally. This paper tests this intuition on the stablediffusion
2.1 text-to-image model. By looking at the subject-verb-object (SVO) triads
that underlie these prompts (e.g., "astronaut", "ride", "horse"), we find that
the more often an SVO triad appears in the training data, the better the model
can generate an image aligned with that triad. Here, by aligned we mean that
each of the terms appears in the generated image in the proper relation to each
other. Surprisingly, this increased frequency also diminishes how well the
model can generate an image aligned with the flipped triad. For example, if
"astronaut riding horse" appears frequently in the training data, the image for
"horse riding astronaut" will tend to be poorly aligned. Our results thus show
that current models are biased to generate images with relations seen in
training, and provide new data to the ongoing debate on whether these
text-to-image models employ abstract compositional structure in a traditional
sense, or rather, interpolate between relations explicitly seen in the training
data.
- Abstract(参考訳): テキストから画像へのモデルは、しばしばいくつかの関係、すなわち"astronaut riding horse"を生成するが、同じ基本部分からなる他の関係、すなわち" horse riding astronaut"を生成することができない。
これらの失敗は、モデルが新しいイメージを合成的に構築するのではなく、トレーニング先行に頼っているという証拠としてしばしば見なされる。
本稿では,この直観をStablediffusion 2.1 text-to-imageモデルで検証する。
これらのプロンプト(例: "astronaut", "ride", " horse")の下にあるsubject-verb-object (svo)トライアドを見ると、トレーニングデータにsvoトライアドが頻繁に現れるほど、モデルがそのトライアドに合わせたイメージを生成することができる。
ここでは、各項が互いに適切な関係で生成された画像に現れることを意味する。
驚くべきことに、この周波数の増加は、モデルがフリップした三脚と整列した画像をいかにうまく生成できるかを低下させる。
例えば、トレーニングデータに"astronaut riding horse"が頻繁に現れる場合、" horse riding astronaut"のイメージは不十分なアライメントになる傾向がある。
以上の結果から,現行のモデルでは,トレーニングで見られる関係を持つ画像の生成にバイアスがかかり,これらのテキスト・ツー・イメージモデルが従来の意味で抽象的な構成構造を採用するのか,あるいはトレーニングデータで明確に見られる関係間の補間を行うのか,という議論が続いている。
関連論文リスト
- How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold [50.33428591760124]
学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。
我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:28:14Z) - ZebraPose: Zebra Detection and Pose Estimation using only Synthetic Data [0.2302001830524133]
3次元シミュレータで生成された合成データを用いて、ゼブラの検知と2次元ポーズ推定の両方に使用できる最初の合成データセットを得る。
複数の実世界および合成データセット上で検出と2次元ポーズ推定モデルを広範囲にトレーニングし、ベンチマークする。
これらの実験は、スクラッチから訓練されたモデルと合成データのみで、ゼブラの実際の画像に一貫して一般化できることを示す。
論文 参考訳(メタデータ) (2024-08-20T13:28:37Z) - AWOL: Analysis WithOut synthesis using Language [57.31874938870305]
言語を利用して既存の3次元形状モデルを制御し、新しい形状を作り出す。
トレーニング中に存在しない新しい動物をテキストで生成できることが示されています。
この研究は、3D木を生成するための最初の言語駆動の手法でもある。
論文 参考訳(メタデータ) (2024-04-03T20:04:44Z) - An Analysis of Human Alignment of Latent Diffusion Models [4.301861805545143]
大量のデータに基づいて訓練された拡散モデルは、画像合成に顕著な性能を示した。
それらは、人間とのエラーの整合性が高く、分類に使用するときのテクスチャバイアスも低い。
このような表現が3重の奇数ワンアウトタスクにおいて、人間の反応にどの程度うまく一致しているかを分析する。
論文 参考訳(メタデータ) (2024-03-13T12:31:08Z) - Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR [103.51937218213774]
本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
論文 参考訳(メタデータ) (2023-03-24T03:34:33Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - MagicPony: Learning Articulated 3D Animals in the Wild [81.63322697335228]
そこで本研究では,オブジェクトカテゴリのワンビュー画像から,この予測器を純粋に学習するMagicPonyを提案する。
その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。
論文 参考訳(メタデータ) (2022-11-22T18:59:31Z) - Rare Wildlife Recognition with Self-Supervised Representation Learning [0.0]
本稿では,自己指導型プレトレーニングに頼って,必要なトレーニングデータの量を削減する手法を提案する。
MoCo, CLD, および幾何拡張の組み合わせは, ImageNetで事前訓練された従来のモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-29T17:57:38Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。