論文の概要: Deep Meditations: Controlled navigation of latent space
- arxiv url: http://arxiv.org/abs/2003.00910v1
- Date: Thu, 27 Feb 2020 21:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:33:22.157881
- Title: Deep Meditations: Controlled navigation of latent space
- Title(参考訳): Deep Meditations: 潜在空間の制御されたナビゲーション
- Authors: Memo Akten, Rebecca Fiebrink, Mick Grierson
- Abstract要約: 本研究では,深層生成モデルの潜在空間を創造的に探索し,ナビゲートする手法を提案する。
我々のゴールは、創造的な表現と物語を有意義な人的コントロールで伝えるための媒体として、深層生成モデルの活用を奨励し支援することである。
- 参考スコア(独自算出の注目度): 3.0709727531116617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method which allows users to creatively explore and navigate
the vast latent spaces of deep generative models. Specifically, our method
enables users to \textit{discover} and \textit{design} \textit{trajectories} in
these high dimensional spaces, to construct stories, and produce time-based
media such as videos---\textit{with meaningful control over narrative}. Our
goal is to encourage and aid the use of deep generative models as a medium for
creative expression and story telling with meaningful human control. Our method
is analogous to traditional video production pipelines in that we use a
conventional non-linear video editor with proxy clips, and conform with arrays
of latent space vectors. Examples can be seen at
\url{http://deepmeditations.ai}.
- Abstract(参考訳): 本研究では,深層生成モデルの潜在空間を創造的に探索し,ナビゲートする手法を提案する。
具体的には,これらの高次元空間におけるtextit{discover} と \textit{design} \textit{trajectories} をユーザに提供することで,ストーリーを構築し,ビデオなどのタイムベースのメディアを生成する。
我々のゴールは、創造的な表現と物語を有意義な人間のコントロールで伝える媒体として、深層生成モデルの使用を奨励し支援することである。
本手法は,従来のビデオ制作パイプラインと類似しており,プロキシクリップを用いた従来の非線形ビデオエディタを用いて,潜在空間ベクトルの配列に適合する。
例は \url{http://deepmeditations.ai} で見ることができる。
関連論文リスト
- Text2Immersion: Generative Immersive Scene with 3D Gaussians [14.014016090679627]
Text2Immersionは、テキストプロンプトから高品質な3D没入シーンを生成するためのエレガントな方法である。
我々のシステムは、品質と多様性をレンダリングする他の手法を超越し、テキスト駆動の3Dシーン生成に向けてさらに前進している。
論文 参考訳(メタデータ) (2023-12-14T18:58:47Z) - DreamDrone [62.26290727917914]
本研究では,テキストプロンプトから未境界のフライスルーシーンを生成する革新的な手法であるDreamDroneを紹介する。
拡散モデルにおける中間特徴の強い対応性を利用した特徴対応誘導拡散プロセスを提案する。
また,中間潜伏符号を編集する高度な手法を提案し,幾何学的整合性を持つ新規なビューの生成を可能にする。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - Text-image guided Diffusion Model for generating Deepfake celebrity
interactions [50.37578424163951]
拡散モデルは近年、非常にリアルなビジュアルコンテンツ生成を実証している。
本稿では,その点において新しい手法を考案し,検討する。
提案手法により, 現実感を脅かすことなく, 偽の視覚コンテンツを作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-26T08:24:37Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - VideoFactory: Swap Attention in Spatiotemporal Diffusions for
Text-to-Video Generation [57.98975319014234]
VideoFactoryはハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作できる。
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - SceneScape: Text-Driven Consistent Scene Generation [14.348512536556413]
本稿では,事前学習したテキスト・ツー・イメージモデルと事前学習した単眼深度予測モデルを組み合わせることで,このような動画をオンライン形式で生成する新しいフレームワークを提案する。
3次元の整合性を達成するための重要な課題に対処するため、オンラインテストタイムトレーニングを展開、現在のフレームの予測深度マップが合成シーンと幾何的に整合するように促す。
限定的な領域のみに適用できる以前の作品とは対照的に,本手法では,宇宙船や洞窟,あるいは氷の城の歩行など,多様な場面を創出する。
論文 参考訳(メタデータ) (2023-02-02T14:47:19Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-20T07:33:10Z) - Exploring Latent Dimensions of Crowd-sourced Creativity [0.02294014185517203]
私たちは、AIベースの最大のクリエイティビティプラットフォームであるArtbreederの開発を行っています。
このプラットフォーム上で生成された画像の潜在次元を探索し、画像を操作するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T19:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。