論文の概要: Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2511.17844v1
- Date: Fri, 21 Nov 2025 23:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.470237
- Title: Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation
- Title(参考訳): より少ない:制御可能なテキスト・ビデオ・ジェネレーションのためのデータ効率の良い適応
- Authors: Shihan Cheng, Nilesh Kulkarni, David Hyde, Dmitriy Smirnov,
- Abstract要約: 本稿では,疎結合で低品質な合成データから制御を学習するデータ効率の微調整戦略を提案する。
このような単純なデータに対して微調整を行うことで、望まれる制御が可能になるだけでなく、実際にフォトリアリスティックな「リアル」データに基づいて微調整されたモデルに優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 7.871757017748603
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning large-scale text-to-video diffusion models to add new generative controls, such as those over physical camera parameters (e.g., shutter speed or aperture), typically requires vast, high-fidelity datasets that are difficult to acquire. In this work, we propose a data-efficient fine-tuning strategy that learns these controls from sparse, low-quality synthetic data. We show that not only does fine-tuning on such simple data enable the desired controls, it actually yields superior results to models fine-tuned on photorealistic "real" data. Beyond demonstrating these results, we provide a framework that justifies this phenomenon both intuitively and quantitatively.
- Abstract(参考訳): 物理的カメラパラメータ(例えばシャッタースピードや開口)を超えるような新しい生成制御を追加するために、微調整された大規模なテキスト・ビデオ拡散モデルでは、取得が困難な膨大な高忠実なデータセットが必要となる。
本研究では,低品質な合成データからこれらの制御を学習する,データ効率のよい微調整戦略を提案する。
このような単純なデータに対して微調整を行うことで、望まれる制御が可能になるだけでなく、実際にフォトリアリスティックな「リアル」データに基づいて微調整されたモデルに優れた結果が得られることを示す。
これらの結果を実証する以外に、直感的かつ定量的にこの現象を正当化する枠組みを提供する。
関連論文リスト
- StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [76.62929629864034]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。
さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。
我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文 参考訳(メタデータ) (2024-12-17T18:58:55Z) - Improving Object Detection by Modifying Synthetic Data with Explainable AI [3.0519884745675485]
本稿では,合成画像の設計効率を向上させるための新しい概念的アプローチを提案する。
XAI技術は、これらの画像を生成するために使用される3Dメッシュモデルを修正する、ループ中の人間プロセスを導く。
合成データは、トレーニング中に見えない方向の車両の検出を4.6%改善できることを示す。
論文 参考訳(メタデータ) (2024-12-02T13:24:43Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Can Synthetic Data Improve Object Detection Results for Remote Sensing
Images? [15.466412729455874]
本稿では,リモートセンシング画像航空機検出の性能向上のために,広域分布のリアルな合成データの利用を提案する。
レンダリング中に、インスタンスのサイズや背景画像のクラスなど、パラメータをランダムに設定します。
合成画像をよりリアルにするために,CycleGANと実際の未ラベル画像を用いて,画素レベルで合成画像を洗練する。
論文 参考訳(メタデータ) (2020-06-09T02:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。