論文の概要: RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
- arxiv url: http://arxiv.org/abs/2503.17735v1
- Date: Sat, 22 Mar 2025 11:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:21.075522
- Title: RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
- Title(参考訳): RDTF:マルチフレームアニメーションステッカー生成のための資源効率の良いデュアルマスクトレーニングフレームワーク
- Authors: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang,
- Abstract要約: 制約のあるリソースの下では、より小さなビデオ生成モデルをスクラッチからトレーニングすることで、ダウンストリームアプリケーションでより大きなモデル上でパラメータ効率のチューニングより優れている。
サンプルエントロピーを静的かつ適応的なコンポーネントに分解する難易度適応型カリキュラム学習法を提案する。
- 参考スコア(独自算出の注目度): 29.340362062804967
- License:
- Abstract: Recently, great progress has been made in video generation technology, attracting the widespread attention of scholars. To apply this technology to downstream applications under resource-constrained conditions, researchers usually fine-tune the pre-trained models based on parameter-efficient tuning methods such as Adapter or Lora. Although these methods can transfer the knowledge from the source domain to the target domain, fewer training parameters lead to poor fitting ability, and the knowledge from the source domain may lead to the inference process deviating from the target domain. In this paper, we argue that under constrained resources, training a smaller video generation model from scratch using only million-level samples can outperform parameter-efficient tuning on larger models in downstream applications: the core lies in the effective utilization of data and curriculum strategy. Take animated sticker generation (ASG) as a case study, we first construct a discrete frame generation network for stickers with low frame rates, ensuring that its parameters meet the requirements of model training under constrained resources. In order to provide data support for models trained from scratch, we come up with a dual-mask based data utilization strategy, which manages to improve the availability and expand the diversity of limited data. To facilitate convergence under dual-mask situation, we propose a difficulty-adaptive curriculum learning method, which decomposes the sample entropy into static and adaptive components so as to obtain samples from easy to difficult. The experiment demonstrates that our resource-efficient dual-mask training framework is quantitatively and qualitatively superior to efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the feasibility of our method on downstream tasks under constrained resources. Code will be available.
- Abstract(参考訳): 近年,映像生成技術に大きな進歩が見られ,学者の注目を集めている。
この技術を資源制約条件下でのダウンストリームアプリケーションに適用するために、研究者は通常、AdapterやLoraのようなパラメータ効率のよいチューニング手法に基づいて、事前訓練されたモデルを微調整する。
これらの手法は、知識をソースドメインからターゲットドメインに転送することができるが、トレーニングパラメータが減ると適合性が低下し、ソースドメインからの知識がターゲットドメインから逸脱する推論プロセスにつながる可能性がある。
本稿では、制約のあるリソースの下では、100万レベルのサンプルのみを用いて、より小さなビデオ生成モデルをスクラッチからトレーニングすることで、ダウンストリームアプリケーションにおける大規模モデルのパラメータ効率チューニングよりも優れている、と論じる。
アニメーションステッカー生成(ASG)を事例として、まず、低フレームレートのステッカーのための離散フレーム生成ネットワークを構築し、そのパラメータが制約されたリソース下でのモデルトレーニングの要件を満たすことを保証する。
スクラッチからトレーニングしたモデルのデータサポートを提供するために、我々は、可用性を改善し、制限されたデータの多様性を拡大するデュアルマスクベースのデータ利用戦略を思いついた。
両マスク条件下での収束を容易にするために,サンプルエントロピーを静的かつ適応的なコンポーネントに分解して,サンプルの入手を容易かつ困難にするための難易度適応型カリキュラム学習法を提案する。
本実験は,I2V-Adapter や SimDA などの効率的なパラメータチューニング手法に比べて,資源効率のよい2次元マスク学習フレームワークが定量的に定性的に優れていることを示す。
コードは利用可能です。
関連論文リスト
- Efficient Domain Adaptation of Multimodal Embeddings using Constrastive Learning [0.08192907805418582]
現在のアプローチでは、タスク固有の適応なしに事前訓練されたモデルを使用する際にサブパー結果を得るか、あるいは微調整のためにかなりの計算資源を必要とする。
本稿では,高コストな微調整処理を必要とせず,基礎的なマルチモーダルな埋め込みを下流タスクに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T06:30:12Z) - Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。
実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。
様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2024-07-16T16:35:23Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。