Fugu-MT 論文翻訳(概要): MG-Gen: Single Image to Motion Graphics Generation

論文の概要: MG-Gen: Single Image to Motion Graphics Generation

arxiv url: http://arxiv.org/abs/2504.02361v3
Date: Mon, 14 Jul 2025 05:22:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-15 20:53:35.052511
Title: MG-Gen: Single Image to Motion Graphics Generation
Title（参考訳）: MG-Gen:モーショングラフィック生成のためのシングルイメージ
Authors: Takahiro Shirakawa, Tomoyuki Suzuki, Takuto Narumoto, Daichi Haraguchi,
Abstract要約: MG-Genは、単一の画像から直接モーショングラフィックを生成するフレームワークである。単一のイメージをHTMLとして表現された階層構造に分解し、各レイヤのアニメーションスクリプトを生成し、それらをビデオにレンダリングする。
参考スコア（独自算出の注目度）: 1.124958340749622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce MG-Gen, a framework that generates motion graphics directly from a single raster image. MG-Gen decompose a single raster image into layered structures represented as HTML, generate animation scripts for each layer, and then render them into a video. Experiments confirm MG-Gen generates dynamic motion graphics while preserving text readability and fidelity to the input conditions, whereas state-of-the-art image-to-video generation methods struggle with them. The code is available at https://github.com/CyberAgentAILab/MG-GEN.
Abstract（参考訳）: MG-Genは、単一のラスタ画像から直接モーショングラフィックを生成するフレームワークである。 MG-Genは、単一のラスタ画像をHTMLとして表現された階層構造に分解し、各レイヤのアニメーションスクリプトを生成し、それらをビデオにレンダリングする。実験によりMG-Genはテキストの読みやすさと入力条件への忠実さを保ちながら動的モーショングラフィックスを生成するのに対し、最先端の画像-映像生成手法はそれらと競合することを確認した。コードはhttps://github.com/CyberAgentAILab/MG-GENで公開されている。

関連論文リスト

Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文参考訳（メタデータ） (2024-10-01T07:02:46Z)
Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation [19.408715783816167]
生成された映像シーケンスが参照画像の微妙さを確実に保持する訓練不要のフレームワークを導入する。我々は、骨格と動きの先行情報をポーズ情報から切り離し、アニメーション生成の正確な制御を可能にする。提案手法は,大規模なデータセットや高価な計算資源を必要とせず,映像生成の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-29T13:08:12Z)
GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal-Conditioned Policy [23.347893186905086]
テキスト命令とゴール画像の条件付けを支援する新しい手法GR-MGを提案する。 GR-MGは拡散ベース画像編集モデルを介して目標画像を生成し、テキストと生成された画像の両方に条件を付与する。シミュレーション実験では、GR-MGは5列のタスクの平均数を3.35から4.04に改善した。
論文参考訳（メタデータ） (2024-08-26T15:46:41Z)
LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [52.16008431411513]
LASERは、チューニング不要のLCM駆動のアテンションコントロールフレームワークである。テキスト条件付きイメージ・トゥ・アニメーションベンチマークを提案し,その有効性と有効性を検証する。
論文参考訳（メタデータ） (2024-04-21T07:13:56Z)
AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
本稿では,静的アニメーションをテキストからビデオへの誘導による高品質なアニメーションに変換する計算システムAniClipartを紹介する。 As-Rigid-As-Possible(ARAP)形状の変形とレンダリングの差別化により、AniClipartは剛性を維持しながらエンドツーエンドで最適化できる。
論文参考訳（メタデータ） (2024-04-18T17:24:28Z)
MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。 MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文参考訳（メタデータ） (2024-04-03T14:58:00Z)
DragAPart: Learning a Part-Level Motion Prior for Articulated Objects [67.97235923372035]
DragAPartは、ドラッグのアクションに応答する同じオブジェクトの新しいイメージを生成するメソッドである。従来の動作制御ジェネレータと比較して、より優れた部分レベルの動作理解を示す。
論文参考訳（メタデータ） (2024-03-22T17:58:59Z)
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。 GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文参考訳（メタデータ） (2024-02-11T13:40:08Z)
AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文参考訳（メタデータ） (2023-12-06T13:39:35Z)
MotionVideoGAN: A Novel Video Generator Based on the Motion Space Learned from Image Pairs [16.964371778504297]
我々は、事前訓練された画像ペア生成器によって学習された動き空間に基づいて、動画を合成する新しいビデオジェネレータであるMotionVideoGANを紹介する。モーションコードは、編集された画像が同じ内容を共有するため、モーション空間内の画像を編集するのに役立ちます。提案手法は,未条件のビデオ生成評価に使用される最も複雑なビデオデータセットであるUCF101に対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-06T05:52:13Z)
Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文参考訳（メタデータ） (2023-02-22T14:47:57Z)
Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。 Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。 Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文参考訳（メタデータ） (2022-06-09T17:55:02Z)
Language Models Can See: Plugging Visual Controls in Text Generation [48.05127160095048]
本稿では,生成プロセスにおいて視覚制御をプラグインする,MAGICと呼ばれる学習不要のフレームワークを提案する。 MAGICは、既製のLM(GPT-2)と画像グラウンドドテキスト生成のための画像テキストマッチングモデル(CLIP)を直接組み合わせた、プラグアンドプレイのフレームワークである。ゼロショット画像キャプションの課題に対して、MAGICは最先端の手法を顕著なマージンで上回り、27倍のデコードスピードアップを達成している。
論文参考訳（メタデータ） (2022-05-05T13:56:18Z)
MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2022-02-08T23:54:06Z)
A Good Image Generator Is What You Need for High-Resolution Video Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文参考訳（メタデータ） (2021-04-30T15:38:41Z)
First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文参考訳（メタデータ） (2020-02-29T07:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。