論文の概要: TraDiffusion: Trajectory-Based Training-Free Image Generation
- arxiv url: http://arxiv.org/abs/2408.09739v1
- Date: Mon, 19 Aug 2024 07:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:24:19.928943
- Title: TraDiffusion: Trajectory-Based Training-Free Image Generation
- Title(参考訳): TraDiffusion: 軌道に基づく訓練不要の画像生成
- Authors: Mingrui Wu, Oucheng Huang, Jiayi Ji, Jiale Li, Xinyue Cai, Huafeng Kuang, Jianzhuang Liu, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: そこで我々は,TraDiffusion(トラディフュージョン)と呼ばれる,訓練のないトラジェクトリベースの制御可能なT2Iアプローチを提案する。
この手法により、マウスの軌跡を通した画像生成を無駄にガイドすることができる。
- 参考スコア(独自算出の注目度): 85.39724878576584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a training-free, trajectory-based controllable T2I approach, termed TraDiffusion. This novel method allows users to effortlessly guide image generation via mouse trajectories. To achieve precise control, we design a distance awareness energy function to effectively guide latent variables, ensuring that the focus of generation is within the areas defined by the trajectory. The energy function encompasses a control function to draw the generation closer to the specified trajectory and a movement function to diminish activity in areas distant from the trajectory. Through extensive experiments and qualitative assessments on the COCO dataset, the results reveal that TraDiffusion facilitates simpler, more natural image control. Moreover, it showcases the ability to manipulate salient regions, attributes, and relationships within the generated images, alongside visual input based on arbitrary or enhanced trajectories.
- Abstract(参考訳): そこで本研究では,TraDiffusion(トラディフュージョン)と呼ばれる,訓練のないトラジェクトリベースの制御可能なT2Iアプローチを提案する。
この手法により、マウスの軌跡を通した画像生成を無駄にガイドすることができる。
精度の高い制御を実現するため、我々は遅延変数を効果的に誘導する距離認識エネルギー関数を設計し、生成の焦点が軌道で定義された領域内にあることを保証する。
エネルギー関数は、所定の軌道に近づいた生成を描画する制御関数と、軌道から離れた領域の活性を減少させる運動関数とを含む。
大規模な実験とCOCOデータセットの定性評価により、TraDiffusionはよりシンプルで自然な画像制御を促進することが明らかとなった。
さらに、任意のまたは拡張された軌跡に基づく視覚的入力とともに、生成された画像内の健全な領域、属性、関係を操作できることも示す。
関連論文リスト
- FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models [41.006754386910686]
拡散モデル自体が、トレーニングを必要とせず、生成したコンテンツの適切な制御を可能にしている、と我々は主張する。
ノイズ構成とアテンション計算の両方に関するガイダンスを付与することにより、トラジェクトリ制御可能なビデオ生成を実現するためのチューニング不要のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:59:56Z) - Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。
同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文 参考訳(メタデータ) (2024-06-06T03:37:39Z) - FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。
私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文 参考訳(メタデータ) (2024-06-01T17:29:29Z) - D-Cubed: Latent Diffusion Trajectory Optimisation for Dexterous Deformable Manipulation [15.680133621889809]
D-Cubedは、タスクに依存しないプレイデータセットからトレーニングされた潜在拡散モデル(LDM)を用いた、新しい軌道最適化手法である。
我々は、D-Cubedが従来の軌道最適化および競争ベースラインアプローチをかなりの差で上回ることを示した。
論文 参考訳(メタデータ) (2024-03-19T16:05:51Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - Neural Motion Fields: Encoding Grasp Trajectories as Implicit Value
Functions [65.84090965167535]
本稿では,ニューラルネットワークによってパラメータ化される暗黙的値関数として,オブジェクト点群と相対的タスク軌跡の両方を符号化する新しいオブジェクト表現であるNeural Motion Fieldsを提案する。
このオブジェクト中心表現は、SE(3)空間上の連続分布をモデル化し、サンプリングベースのMPCを利用して、この値関数を最適化することで、反応的に把握することができる。
論文 参考訳(メタデータ) (2022-06-29T18:47:05Z) - CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze
Redirection [3.0141238193080295]
視線リダイレクトの目的は、画像中の視線を所望の方向に向けて操作することである。
生成的対向ネットワークの進歩は、フォトリアリスティック画像の生成において優れた結果を示している。
このような微調整の制御を可能にするためには、非常に高価なトレーニングデータに対して、基礎となる真理アノテーションを得る必要がある。
論文 参考訳(メタデータ) (2021-06-21T04:39:42Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Controllable Continuous Gaze Redirection [47.15883248953411]
制御可能な視線リダイレクトのための新しいフレームワークであるInterpGazeを提案する。
我々のゴールは、ある人物の視線を基準画像に描かれたあらゆる視線方向へとリダイレクトすることである。
提案したInterpGazeは、画像の品質とリダイレクト精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-10-09T11:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。