論文の概要: Exploring the Representation Manifolds of Stable Diffusion Through the
Lens of Intrinsic Dimension
- arxiv url: http://arxiv.org/abs/2302.09301v1
- Date: Thu, 16 Feb 2023 16:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:22:42.553156
- Title: Exploring the Representation Manifolds of Stable Diffusion Through the
Lens of Intrinsic Dimension
- Title(参考訳): 内在次元レンズによる安定拡散の表現多様体の探索
- Authors: Henry Kvinge, Davis Brown, Charles Godfrey
- Abstract要約: 安定拡散のプロンプトによって誘導される基本幾何学的性質を理解するための第一歩を踏み出す。
我々は,プロンプトの選択がモデルの両層における表現の本質的な次元に重大な影響を与えることを発見した。
我々の証拠は、本質的な次元は、異なるプロンプトがテキスト・ツー・イメージモデルに与える影響について将来の研究に有用なツールになり得ることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting has become an important mechanism by which users can more
effectively interact with many flavors of foundation model. Indeed, the last
several years have shown that well-honed prompts can sometimes unlock emergent
capabilities within such models. While there has been a substantial amount of
empirical exploration of prompting within the community, relatively few works
have studied prompting at a mathematical level. In this work we aim to take a
first step towards understanding basic geometric properties induced by prompts
in Stable Diffusion, focusing on the intrinsic dimension of internal
representations within the model. We find that choice of prompt has a
substantial impact on the intrinsic dimension of representations at both layers
of the model which we explored, but that the nature of this impact depends on
the layer being considered. For example, in certain bottleneck layers of the
model, intrinsic dimension of representations is correlated with prompt
perplexity (measured using a surrogate model), while this correlation is not
apparent in the latent layers. Our evidence suggests that intrinsic dimension
could be a useful tool for future studies of the impact of different prompts on
text-to-image models.
- Abstract(参考訳): プロンプティングは、ユーザーが多くの基礎モデルのフレーバーとより効果的に対話できる重要なメカニズムとなっている。
実際、ここ数年の間、きちんとしたプロンプトが、そのようなモデルの中で創発的な機能を解き放つことがあることが示されてきた。
コミュニティ内でプロンプトに関する実証的な調査が盛んに行われているが、数学的レベルでプロンプトを研究した研究は、比較的少ない。
本研究では、安定拡散におけるプロンプトによって誘導される基本幾何学的性質の理解に向けて、モデル内の内部表現の本質的な次元に焦点をあてる。
プロンプトの選択は、探索したモデルの両方の層における表現の本質的な次元に大きな影響を与えるが、この影響の性質は検討中の層に依存している。
例えば、モデルの特定のボトルネック層では、表現の内在次元は(代理モデルを用いて測定される)即時パープレキシティと相関するが、この相関は潜在層では明らかではない。
我々の証拠は、本質的な次元は、異なるプロンプトがテキスト・ツー・イメージモデルに与える影響について将来の研究に有用なツールになり得ることを示唆している。
関連論文リスト
- Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers [1.7418480517632609]
事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。
それら固有の複雑さのため、これらのモデルはよく理解されていない。
解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
論文 参考訳(メタデータ) (2024-01-28T04:59:51Z) - Implicit Modeling of Non-rigid Objects with Cross-Category Signals [28.956412015920936]
MODIFは、複数のオブジェクトに対する変形フィールドとインスタンス固有の潜時符号を同時に学習する多目的深い暗黙関数である。
我々は,MODIFが各臓器の形状表現と他臓器との関係を良好に学習できることを示す。
論文 参考訳(メタデータ) (2023-12-15T22:34:17Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - Disentangling Shape and Pose for Object-Centric Deep Active Inference
Models [4.298360054690217]
本稿では,3次元オブジェクト表現の問題点を考察し,ShapeNetデータセットの異なるインスタンスに着目した。
深層ニューラルネットワークを用いて各因子の表現を学習しながら,対象の形状,ポーズ,カテゴリを分解するモデルを提案する。
論文 参考訳(メタデータ) (2022-09-16T12:53:49Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - Causal Discovery in Physical Systems from Videos [123.79211190669821]
因果発見は人間の認知の中心にある。
本研究では,ビデオの因果発見の課題を,地層構造を監督せずにエンドツーエンドで検討する。
論文 参考訳(メタデータ) (2020-07-01T17:29:57Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。