論文の概要: GridShow: Omni Visual Generation
- arxiv url: http://arxiv.org/abs/2412.10718v3
- Date: Fri, 10 Jan 2025 07:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:24:51.181459
- Title: GridShow: Omni Visual Generation
- Title(参考訳): GridShow: Omniビジュアルジェネレーション
- Authors: Cong Wan, Xiangyang Luo, Zijian Cai, Yiren Song, Yunlong Zhao, Yifan Bai, Yuhang He, Yihong Gong,
- Abstract要約: グリッドを配置する問題として、幅広い視覚生成タスクを再構成する新しいパラダイムであるGRIDを紹介する。
GRIDのコアとなるのは、時間的シーケンスをグリッドレイアウトに変換することで、画像生成モデルによる視覚的シーケンスの全体的処理を可能にすることだ。
- 参考スコア(独自算出の注目度): 28.23009801836999
- License:
- Abstract: In this paper, we introduce GRID, a novel paradigm that reframes a broad range of visual generation tasks as the problem of arranging grids, akin to film strips. At its core, GRID transforms temporal sequences into grid layouts, enabling image generation models to process visual sequences holistically. To achieve both layout consistency and motion coherence, we develop a parallel flow-matching training strategy that combines layout matching and temporal losses, guided by a coarse-to-fine schedule that evolves from basic layouts to precise motion control. Our approach demonstrates remarkable efficiency, achieving up to 35 faster inference speeds while using 1/1000 of the computational resources compared to specialized models. Extensive experiments show that GRID exhibits exceptional versatility across diverse visual generation tasks, from Text-to-Video to 3D Editing, while maintaining its foundational image generation capabilities. This dual strength in both expanded applications and preserved core competencies establishes GRID as an efficient and versatile omni-solution for visual generation.
- Abstract(参考訳): 本稿では,フィルムストリップに類似したグリッド配置問題として,幅広い視覚生成タスクを再構成する新しいパラダイムであるGRIDを紹介する。
GRIDのコアとなるのは、時間的シーケンスをグリッドレイアウトに変換することで、画像生成モデルによる視覚的シーケンスの全体的処理を可能にすることだ。
レイアウトの整合性と動きの整合性を両立させるため,基本的なレイアウトから正確な動作制御へと進化する粗いスケジュールによって誘導される,レイアウトマッチングと時間的損失を組み合わせた並列フローマッチングトレーニング戦略を開発した。
提案手法は,計算資源の1/1000を専門モデルと比較しながら,最大35速の推論速度を実現する。
大規模な実験により、GRIDはテキスト・トゥ・ビデオから3D編集まで様々な視覚的生成タスクにおいて、基礎的な画像生成能力を維持しながら、例外的な汎用性を示すことが示された。
この拡張された応用と保存されたコア能力の両面での二重強度は、GRIDを視覚生成のための効率的で汎用的なオムニ解法として確立する。
関連論文リスト
- Learnable Infinite Taylor Gaussian for Dynamic View Rendering [55.382017409903305]
本稿では,ガウスの時間的進化をモデル化するための学習可能なテイラー式に基づく新しいアプローチを提案する。
提案手法は,本領域における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-05T16:03:37Z) - Graph Neural Alchemist: An innovative fully modular architecture for time series-to-graph classification [0.0]
本稿では時系列分類のための新しいグラフニューラルネットワーク(GNN)アーキテクチャを提案する。
時系列を可視グラフとして表現することにより、時系列データ固有の時間的依存関係の両方を符号化することができる。
私たちのアーキテクチャは完全にモジュール化されており、異なるモデルで柔軟な実験を可能にします。
論文 参考訳(メタデータ) (2024-10-12T00:03:40Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Leveraging Image-based Generative Adversarial Networks for Time Series
Generation [4.541582055558865]
XIRP(Extended Intertemporal Return Plot)という時系列の2次元画像表現を提案する。
提案手法は, 時間間時系列のダイナミクスをスケール不変かつ可逆的に捉え, トレーニング時間を短縮し, サンプル品質を向上させる。
論文 参考訳(メタデータ) (2021-12-15T11:55:11Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。