Fugu-MT 論文翻訳(概要): Reflections on Disentanglement and the Latent Space

論文の概要: Reflections on Disentanglement and the Latent Space

arxiv url: http://arxiv.org/abs/2410.09094v1
Date: Sun, 20 Oct 2024 14:40:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 16:38:28.724478
Title: Reflections on Disentanglement and the Latent Space
Title（参考訳）: 絡み合いと潜伏空間の反射
Authors: Ludovica Schaerf,
Abstract要約: 画像生成モデルの潜在空間は、圧縮された隠された視覚的知識の多次元空間である。本稿では,多次元の文化アーカイブとして,多次元のポテンシャル空間として,潜在空間の二重ビューを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The latent space of image generative models is a multi-dimensional space of compressed hidden visual knowledge. Its entity captivates computer scientists, digital artists, and media scholars alike. Latent space has become an aesthetic category in AI art, inspiring artistic techniques such as the latent space walk, exemplified by the works of Mario Klingemann and others. It is also viewed as cultural snapshots, encoding rich representations of our visual world. This paper proposes a double view of the latent space, as a multi-dimensional archive of culture and as a multi-dimensional space of potentiality. The paper discusses disentanglement as a method to elucidate the double nature of the space and as an interpretative direction to exploit its organization in human terms. The paper compares the role of disentanglement as potentiality to that of conditioning, as imagination, and confronts this interpretation with the philosophy of Deleuzian potentiality and Hume's imagination. Lastly, this paper notes the difference between traditional generative models and recent architectures.
Abstract（参考訳）: 画像生成モデルの潜在空間は、圧縮された隠された視覚的知識の多次元空間である。その存在は、コンピュータ科学者、デジタルアーティスト、メディア学者らを魅了する。ラテント・スペースはAI芸術において美学のカテゴリーとなり、マリオ・クリンゲマンなどの作品で実証された、ラテント・スペースウォークのような芸術的技法を刺激している。それはまた、文化的なスナップショットと見なされ、私たちの視覚世界の豊かな表現をエンコードしています。本稿では,多次元の文化アーカイブとして,多次元のポテンシャル空間として,潜在空間の二重ビューを提案する。本稿では,空間の二重性を明らかにする手法として,また,その組織を人間の言葉で活用するための解釈的方向として,ゆがみについて論じる。この論文は、非絡み合いを想像力として条件付けの役割と比較し、この解釈を、デロイズ的ポテンシャルとヒュームの想像力の哲学と対立させる。最後に,従来の生成モデルと最近のアーキテクチャの違いについて述べる。

関連論文リスト

Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-12-01T16:01:41Z)
TraitSpaces: Towards Interpretable Visual Creativity for Human-AI Co-Creation [0.0]
心理学からアーティストや理論を実践する実践者へのインタビューに基づいて、私たちは、創造性の感情的、象徴的、文化的、倫理的次元を捉えた12の特徴を定義します。環境対話性や空洞アークといったトラストは高い信頼性で予測される。私たちの研究は、文化的・美的な洞察と計算モデリングを結びつけることで、創造性を数字に還元するのではなく、アーティスト、研究者、AIシステムが有意義に協力するための共通の言語と解釈可能なツールを提供することを目的としています。
論文参考訳（メタデータ） (2025-09-29T06:24:18Z)
Latent Diffusion : Multi-Dimension Stable Diffusion Latent Space Explorer [6.6933005224319695]
本稿では、カスタマイズ可能な潜在空間演算を拡散プロセスに統合するフレームワークであるWorknameを紹介する。概念的および空間的表現の直接操作を可能にすることにより、この手法は生成芸術における創造可能性を広げる。
論文参考訳（メタデータ） (2025-09-26T08:15:58Z)
SceneGram: Conceptualizing and Describing Tangrams in Scene Context [8.883534683127415]
本稿では,異なるシーン環境に配置されたタングラム形状に対する人間の参照のデータセットであるSceneGramについて述べる。これらのモデルは、人間の参照に見られる概念化の豊かさと多様性を考慮に入れていないことを示す。
論文参考訳（メタデータ） (2025-06-13T10:02:39Z)
Safe and Reliable Diffusion Models via Subspace Projection [27.65307410937119]
本稿では,T2I拡散モデルからターゲット概念を徹底的に除去するための,新規かつ効率的なアプローチであるSAFERを提案する。この方法はまず、ターゲット概念cに関連付けられた概念固有の部分空間$S_c$を識別する。次に、プロンプト埋め込みを$S_c$のサブスペースに投影し、生成されたイメージから概念を効果的に消去する。
論文参考訳（メタデータ） (2025-03-21T04:09:25Z)
Context-aware Multimodal AI Reveals Hidden Pathways in Five Centuries of Art Evolution [1.8435193934665342]
最先端の生成AI、特に安定拡散を使って、500年の西洋絵画を分析します。以上の結果から,形式的要素よりも芸術的期間,様式,個人芸術家の文脈的情報の違いが明らかとなった。我々の生成実験は、将来的な文脈を歴史的美術品に浸透させ、美術品の進化軌道を再現することに成功している。
論文参考訳（メタデータ） (2025-03-15T10:45:04Z)
Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文参考訳（メタデータ） (2024-10-24T17:58:05Z)
How to Blend Concepts in Diffusion Models [48.68800153838679]
近年の手法は複数の潜在表現とその関連性を利用しており、この研究はさらに絡み合っている。我々のゴールは、潜在空間における操作が根底にある概念にどのように影響するかを理解することです。我々の結論は、宇宙操作によるブレンドの概念は可能であるが、最良の戦略はブレンドの文脈に依存する。
論文参考訳（メタデータ） (2024-07-19T13:05:57Z)
Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文参考訳（メタデータ） (2023-12-07T08:58:33Z)
Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文参考訳（メタデータ） (2023-10-27T04:30:18Z)
The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文参考訳（メタデータ） (2023-06-01T17:57:08Z)
Not Only Generative Art: Stable Diffusion for Content-Style Disentanglement in Art Analysis [23.388338598125195]
五屋(ごや)は、近年の創作モデルで捉えた芸術的知識を蒸留して、内容や様式を乱す方法である。実験により、合成された画像は、アートワークの実際の分布のプロキシとして十分に役立っていることが示された。
論文参考訳（メタデータ） (2023-04-20T13:00:46Z)
FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文参考訳（メタデータ） (2022-03-30T19:45:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。