論文の概要: Reflections on Disentanglement and the Latent Space
- arxiv url: http://arxiv.org/abs/2410.09094v1
- Date: Tue, 08 Oct 2024 14:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:14:26.291598
- Title: Reflections on Disentanglement and the Latent Space
- Title(参考訳): 絡み合いと潜伏空間の反射
- Authors: Ludovica Schaerf,
- Abstract要約: 画像生成モデルの潜在空間は、圧縮された隠された視覚的知識の多次元空間である。
本稿では,多次元の文化アーカイブとして,多次元のポテンシャル空間として,潜在空間の二重ビューを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The latent space of image generative models is a multi-dimensional space of compressed hidden visual knowledge. Its entity captivates computer scientists, digital artists, and media scholars alike. Latent space has become an aesthetic category in AI art, inspiring artistic techniques such as the latent space walk, exemplified by the works of Mario Klingemann and others. It is also viewed as cultural snapshots, encoding rich representations of our visual world. This paper proposes a double view of the latent space, as a multi-dimensional archive of culture and as a multi-dimensional space of potentiality. The paper discusses disentanglement as a method to elucidate the double nature of the space and as an interpretative direction to exploit its organization in human terms. The paper compares the role of disentanglement as potentiality to that of conditioning, as imagination, and confronts this interpretation with the philosophy of Deleuzian potentiality and Hume's imagination. Lastly, this paper notes the difference between traditional generative models and recent architectures.
- Abstract(参考訳): 画像生成モデルの潜在空間は、圧縮された隠された視覚的知識の多次元空間である。
その存在は、コンピュータ科学者、デジタルアーティスト、メディア学者らを魅了する。
ラテント・スペースはAI芸術において美学のカテゴリーとなり、マリオ・クリンゲマンなどの作品で実証された、ラテント・スペースウォークのような芸術的技法を刺激している。
それはまた、文化的なスナップショットと見なされ、私たちの視覚世界の豊かな表現をエンコードしています。
本稿では,多次元の文化アーカイブとして,多次元のポテンシャル空間として,潜在空間の二重ビューを提案する。
本稿では,空間の二重性を明らかにする手法として,また,その組織を人間の言葉で活用するための解釈的方向として,ゆがみについて論じる。
この論文は、非絡み合いを想像力として条件付けの役割と比較し、この解釈を、デロイズ的ポテンシャルとヒュームの想像力の哲学と対立させる。
最後に,従来の生成モデルと最近のアーキテクチャの違いについて述べる。
関連論文リスト
- How to Blend Concepts in Diffusion Models [48.68800153838679]
近年の手法は複数の潜在表現とその関連性を利用しており、この研究はさらに絡み合っている。
我々のゴールは、潜在空間における操作が根底にある概念にどのように影響するかを理解することです。
我々の結論は、宇宙操作によるブレンドの概念は可能であるが、最良の戦略はブレンドの文脈に依存する。
論文 参考訳(メタデータ) (2024-07-19T13:05:57Z) - Unveiling Spaces: Architecturally meaningful semantic descriptions from
images of interior spaces [0.0]
本研究の目的は,内部空間の2次元シーンからアーキテクチャ的に意味のある意味記述を抽出することである。
画像から画像への変換のためのGAN(Generative Adversarial Network)は,これらの囲いを合成的に生成した画像に対して,高レベルの構造構造を表す画像抽象化を訓練する。
また,既存の室内囲いの写真にも同様のモデル評価を行い,実環境における性能評価を行った。
論文 参考訳(メタデータ) (2023-12-19T16:03:04Z) - Relightable Neural Actor with Intrinsic Decomposition and Pose Control [80.06094206522668]
提案するRelightable Neural Actorは、ポーズ駆動型ニューラルヒューマンモデルを学ぶための新しいビデオベース手法である。
トレーニングのためには、既知のが静的な照明条件下での人間のマルチビュー記録のみを必要とする。
実世界のシナリオにおける我々のアプローチを評価するため、屋内と屋外の異なる光条件下で記録された4つのアイデンティティを持つ新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-12-18T14:30:13Z) - Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。
我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。
我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文 参考訳(メタデータ) (2023-12-07T08:58:33Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Not Only Generative Art: Stable Diffusion for Content-Style
Disentanglement in Art Analysis [23.388338598125195]
五屋(ごや)は、近年の創作モデルで捉えた芸術的知識を蒸留して、内容や様式を乱す方法である。
実験により、合成された画像は、アートワークの実際の分布のプロキシとして十分に役立っていることが示された。
論文 参考訳(メタデータ) (2023-04-20T13:00:46Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。