Fugu-MT 論文翻訳(概要): Deep Meditations: Controlled navigation of latent space

論文の概要: Deep Meditations: Controlled navigation of latent space

arxiv url: http://arxiv.org/abs/2003.00910v1
Date: Thu, 27 Feb 2020 21:19:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 08:33:22.157881
Title: Deep Meditations: Controlled navigation of latent space
Title（参考訳）: Deep Meditations: 潜在空間の制御されたナビゲーション
Authors: Memo Akten, Rebecca Fiebrink, Mick Grierson
Abstract要約: 本研究では,深層生成モデルの潜在空間を創造的に探索し,ナビゲートする手法を提案する。我々のゴールは、創造的な表現と物語を有意義な人的コントロールで伝えるための媒体として、深層生成モデルの活用を奨励し支援することである。
参考スコア（独自算出の注目度）: 3.0709727531116617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a method which allows users to creatively explore and navigate the vast latent spaces of deep generative models. Specifically, our method enables users to \textit{discover} and \textit{design} \textit{trajectories} in these high dimensional spaces, to construct stories, and produce time-based media such as videos---\textit{with meaningful control over narrative}. Our goal is to encourage and aid the use of deep generative models as a medium for creative expression and story telling with meaningful human control. Our method is analogous to traditional video production pipelines in that we use a conventional non-linear video editor with proxy clips, and conform with arrays of latent space vectors. Examples can be seen at \url{http://deepmeditations.ai}.
Abstract（参考訳）: 本研究では,深層生成モデルの潜在空間を創造的に探索し,ナビゲートする手法を提案する。具体的には,これらの高次元空間におけるtextit{discover} と \textit{design} \textit{trajectories} をユーザに提供することで,ストーリーを構築し,ビデオなどのタイムベースのメディアを生成する。我々のゴールは、創造的な表現と物語を有意義な人間のコントロールで伝える媒体として、深層生成モデルの使用を奨励し支援することである。本手法は,従来のビデオ制作パイプラインと類似しており,プロキシクリップを用いた従来の非線形ビデオエディタを用いて,潜在空間ベクトルの配列に適合する。例は \url{http://deepmeditations.ai} で見ることができる。

関連論文リスト

REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing [56.992916488077476]
本研究では,長い入力ビデオから抽出した埋め込みビデオ挿入を伴うコヒーレントな物語を特徴付けるショートを生成するための新しいビデオ編集モデルについて検討する。本稿では,大規模言語モデルにおいて,コヒーレントなナラティブを維持しつつ,多モーダルなリソースを引用できる新しい検索組込み生成フレームワークを提案する。提案手法は,コヒーレントなナラティブを維持しつつ,短いビデオクリップを効果的に挿入できることを示す。
論文参考訳（メタデータ） (2025-05-24T21:36:49Z)
Map2Text: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化における空間座標を新しい、一貫性のある、正確に整列されたテキストコンテンツに変換する新しいタスクであるMap2Textを紹介する。これによってユーザは、これらの空間的レイアウトに埋め込まれた未発見情報を対話的に、直感的に探索し、ナビゲートすることができる。
論文参考訳（メタデータ） (2024-12-24T20:16:13Z)
SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control [36.22743674288336]
SCENICは仮想シーン内の動的地形に適応する人間の動きを生成するために設計された拡散モデルである。本システムは,シーン制約を維持しながら,異なる動作スタイル間のシームレスな遷移を実現する。私たちのコード、データセット、モデルはurlhttps://virtual humans.mpi-inf.mpg.de/scenic/でリリースされます。
論文参考訳（メタデータ） (2024-12-20T08:25:15Z)
SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2024-10-11T17:59:58Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文参考訳（メタデータ） (2024-05-02T16:25:16Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models [53.961002112433576]
本稿では,デザイナーのテキスト記述に従って高品質なプロシージャモデルを自動生成する大規模シーン生成フレームワークであるSceneXを紹介する。私たちのSceneXは、微妙な幾何学的レイアウトと構造を持つ2.5km×2.5kmの都市を生成でき、プロのPCGエンジニアの数週間の時間を大幅に短縮して、普通のユーザにとっては数時間に過ぎません。
論文参考訳（メタデータ） (2024-03-23T03:23:29Z)
Text-image guided Diffusion Model for generating Deepfake celebrity interactions [50.37578424163951]
拡散モデルは近年、非常にリアルなビジュアルコンテンツ生成を実証している。本稿では,その点において新しい手法を考案し,検討する。提案手法により, 現実感を脅かすことなく, 偽の視覚コンテンツを作成できることが示唆された。
論文参考訳（メタデータ） (2023-09-26T08:24:37Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
SceneScape: Text-Driven Consistent Scene Generation [14.348512536556413]
本稿では,事前学習したテキスト・ツー・イメージモデルと事前学習した単眼深度予測モデルを組み合わせることで,このような動画をオンライン形式で生成する新しいフレームワークを提案する。 3次元の整合性を達成するための重要な課題に対処するため、オンラインテストタイムトレーニングを展開、現在のフレームの予測深度マップが合成シーンと幾何的に整合するように促す。限定的な領域のみに適用できる以前の作品とは対照的に,本手法では,宇宙船や洞窟,あるいは氷の城の歩行など,多様な場面を創出する。
論文参考訳（メタデータ） (2023-02-02T14:47:19Z)
Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文参考訳（メタデータ） (2023-01-20T07:36:29Z)
Fantastic Style Channels and Where to Find Them: A Submodular Framework for Discovering Diverse Directions in GANs [0.0]
StyleGAN2は、リッチでゆがみのある潜在空間のために、様々な画像生成および操作タスクを可能にした。そこで我々は,StyleGAN2の潜在空間において,最も代表的で多様な方向のサブセットを見つけるための,新しいサブモジュラー・フレームワークを設計する。本フレームワークは,クラスタの概念を用いて多様性を促進し,グリーディ最適化方式で効率的に解ける。
論文参考訳（メタデータ） (2022-03-16T10:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。