Fugu-MT 論文翻訳(概要): Fine-grained Controllable Video Generation via Object Appearance and Context

論文の概要: Fine-grained Controllable Video Generation via Object Appearance and Context

arxiv url: http://arxiv.org/abs/2312.02919v1
Date: Tue, 5 Dec 2023 17:47:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 14:59:07.771266
Title: Fine-grained Controllable Video Generation via Object Appearance and Context
Title（参考訳）: オブジェクトの外観とコンテキストによるきめ細かい制御可能な映像生成
Authors: Hsin-Ping Huang, Yu-Chuan Su, Deqing Sun, Lu Jiang, Xuhui Jia, Yukun Zhu, Ming-Hsuan Yang
Abstract要約: 細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
参考スコア（独自算出の注目度）: 74.23066823064575
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-video generation has shown promising results. However, by taking only natural languages as input, users often face difficulties in providing detailed information to precisely control the model's output. In this work, we propose fine-grained controllable video generation (FACTOR) to achieve detailed control. Specifically, FACTOR aims to control objects' appearances and context, including their location and category, in conjunction with the text prompt. To achieve detailed control, we propose a unified framework to jointly inject control signals into the existing text-to-video model. Our model consists of a joint encoder and adaptive cross-attention layers. By optimizing the encoder and the inserted layer, we adapt the model to generate videos that are aligned with both text prompts and fine-grained control. Compared to existing methods relying on dense control signals such as edge maps, we provide a more intuitive and user-friendly interface to allow object-level fine-grained control. Our method achieves controllability of object appearances without finetuning, which reduces the per-subject optimization efforts for the users. Extensive experiments on standard benchmark datasets and user-provided inputs validate that our model obtains a 70% improvement in controllability metrics over competitive baselines.
Abstract（参考訳）: テキスト対ビデオ生成は有望な結果を示している。しかし、自然言語のみを入力とすることで、モデルの出力を正確に制御するための詳細な情報の提供が困難になることが多い。本研究では,詳細な制御を実現するためのきめ細かい制御可能なビデオ生成(FACTOR)を提案する。特に、FACTORは、テキストプロンプトとともに、オブジェクトの外観とコンテキスト、その位置とカテゴリを制御することを目的としている。詳細な制御を実現するために,既存のテキスト・ビデオモデルに協調的に制御信号を注入する統合フレームワークを提案する。本モデルはジョイントエンコーダと適応クロスアテンション層からなる。エンコーダと挿入層を最適化することにより、テキストプロンプトときめ細かい制御の両方に対応するビデオを生成するようにモデルを適応させる。エッジマップのような密集した制御信号に依存する既存の方法と比較して,より直感的でユーザフレンドリーなインターフェースを提供し,オブジェクトレベルのきめ細かい制御を可能にした。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。標準ベンチマークデータセットとユーザが提供する入力に関する広範囲な実験により、本モデルが競合ベースラインよりも70%の制御性指標を得られることを確認した。

関連論文リスト

LLMControl: Grounded Control of Text-to-Image Diffusion-based Synthesis with Multimodal LLMs [3.6016438645365834]
制御可能なT2I生成タスクの課題に対処するため, LLM_Control というフレームワークを提案する。 LLM_Controlは、接地性能を向上させることにより、事前学習した拡散モデルを正確に変調する。我々はマルチモーダル LLM をグローバルコントローラとして利用し,空間レイアウトの配置,意味記述の強化,オブジェクト属性のバインドを行う。
論文参考訳（メタデータ） (2025-07-26T12:57:02Z)
Compass Control: Multi Object Orientation Control for Text-to-Image Generation [24.4172525865806]
テキストと画像の拡散モデルを制御する既存のアプローチは、強力ではあるが、明示的な3Dオブジェクト中心制御を許さない。テキスト・画像拡散モデルにおける多目的方向制御の問題に対処する。これにより、各オブジェクトに対して正確な向き制御を備えた多様なマルチオブジェクトシーンを生成することができる。
論文参考訳（メタデータ） (2025-04-09T10:15:15Z)
Enabling Versatile Controls for Video Diffusion Models [18.131652071161266]
VCtrlは、事前訓練されたビデオ拡散モデルのきめ細かい制御を可能にするように設計された新しいフレームワークである。総合的な実験と人的評価により、VCtrlは制御性と生成品質を効果的に向上させる。
論文参考訳（メタデータ） (2025-03-21T09:48:00Z)
BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。 U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文参考訳（メタデータ） (2025-01-13T19:17:06Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
I2VControl: Disentangled and Unified Video Motion Synthesis Control [11.83645633418189]
I2VControlは,映像合成における複数の動作制御タスクを統一するフレームワークである。提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。我々の方法論は、事前訓練されたモデルのためのプラグインとしてシームレスに統合され、特定のモデルアーキテクチャに依存しないままです。
論文参考訳（メタデータ） (2024-11-26T04:21:22Z)
Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文参考訳（メタデータ） (2024-11-16T23:44:14Z)
DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文参考訳（メタデータ） (2024-09-03T04:29:59Z)
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文参考訳（メタデータ） (2024-08-23T11:48:29Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
PerlDiffは、3次元幾何学情報を完全に活用した効果的なストリートビュー画像生成手法である。この結果から,我々のPerlDiffはNuScenesおよびKITTIデータセットの生成精度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-07-08T16:46:47Z)
ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文参考訳（メタデータ） (2024-03-27T10:09:38Z)
LiFi: Lightweight Controlled Text Generation with Fine-Grained Control Codes [46.74968005604948]
本稿では、制御されたテキスト生成のためのきめ細かい制御を備えた軽量なアプローチであるLIFIを提案する。我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスクでLIFIを評価する。
論文参考訳（メタデータ） (2024-02-10T11:53:48Z)
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。 ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文参考訳（メタデータ） (2023-10-11T17:46:28Z)
Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文参考訳（メタデータ） (2023-06-01T17:55:32Z)
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models [0.0]
ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
論文参考訳（メタデータ） (2023-05-10T02:33:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。