論文の概要: Grid: Omni Visual Generation
- arxiv url: http://arxiv.org/abs/2412.10718v4
- Date: Tue, 21 Jan 2025 04:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:29.589290
- Title: Grid: Omni Visual Generation
- Title(参考訳): グリッド:Omniビジュアルジェネレーション
- Authors: Cong Wan, Xiangyang Luo, Hao Luo, Zijian Cai, Yiren Song, Yunlong Zhao, Yifan Bai, Yuhang He, Yihong Gong,
- Abstract要約: 現在のアプローチでは、膨大な計算コストでスクラッチから特別なビデオモデルを構築するか、イメージジェネレータに別のモーションモジュールを追加するかのどちらかである。
現代の画像生成モデルは、暗黙の時間的理解を伴う構造的レイアウトの処理において、未利用の可能性を秘めている。
本稿では,時間的シーケンスをグリッドレイアウトとして再構成し,視覚的シーケンスの全体的処理を可能にするGRIDを提案する。
- 参考スコア(独自算出の注目度): 29.363916460022427
- License:
- Abstract: Visual generation has witnessed remarkable progress in single-image tasks, yet extending these capabilities to temporal sequences remains challenging. Current approaches either build specialized video models from scratch with enormous computational costs or add separate motion modules to image generators, both requiring learning temporal dynamics anew. We observe that modern image generation models possess underutilized potential in handling structured layouts with implicit temporal understanding. Building on this insight, we introduce GRID, which reformulates temporal sequences as grid layouts, enabling holistic processing of visual sequences while leveraging existing model capabilities. Through a parallel flow-matching training strategy with coarse-to-fine scheduling, our approach achieves up to 67 faster inference speeds while using <1/1000 of the computational resources compared to specialized models. Extensive experiments demonstrate that GRID not only excels in temporal tasks from Text-to-Video to 3D Editing but also preserves strong performance in image generation, establishing itself as an efficient and versatile omni-solution for visual generation.
- Abstract(参考訳): 視覚生成は単一イメージタスクにおいて顕著な進歩をみせたが、これらの能力を時間的シーケンスに拡張することは依然として困難である。
現在のアプローチでは、膨大な計算コストでスクラッチから特別なビデオモデルを構築するか、イメージジェネレータに別々のモーションモジュールを追加するかのいずれかで、どちらも時間的ダイナミクスを新たに学習する必要がある。
現代の画像生成モデルは、暗黙の時間的理解を伴う構造的レイアウトの処理において、未利用の可能性を秘めている。
この知見に基づいて、時間的シーケンスをグリッドレイアウトとして再構成するGRIDを導入し、既存のモデル機能を活用しながら、視覚的シーケンスの全体的処理を可能にする。
計算資源の1/1000を専門モデルと比較しながら, 最大67速の推論速度を実現した。
広汎な実験により、GRIDはテキスト・トゥ・ビデオから3D編集までの時間的タスクに優れるだけでなく、画像生成における強い性能を保ち、視覚生成のための効率的で汎用的なオムニ解法として確立されている。
関連論文リスト
- Learnable Infinite Taylor Gaussian for Dynamic View Rendering [55.382017409903305]
本稿では,ガウスの時間的進化をモデル化するための学習可能なテイラー式に基づく新しいアプローチを提案する。
提案手法は,本領域における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-05T16:03:37Z) - Graph Neural Alchemist: An innovative fully modular architecture for time series-to-graph classification [0.0]
本稿では時系列分類のための新しいグラフニューラルネットワーク(GNN)アーキテクチャを提案する。
時系列を可視グラフとして表現することにより、時系列データ固有の時間的依存関係の両方を符号化することができる。
私たちのアーキテクチャは完全にモジュール化されており、異なるモデルで柔軟な実験を可能にします。
論文 参考訳(メタデータ) (2024-10-12T00:03:40Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Leveraging Image-based Generative Adversarial Networks for Time Series
Generation [4.541582055558865]
XIRP(Extended Intertemporal Return Plot)という時系列の2次元画像表現を提案する。
提案手法は, 時間間時系列のダイナミクスをスケール不変かつ可逆的に捉え, トレーニング時間を短縮し, サンプル品質を向上させる。
論文 参考訳(メタデータ) (2021-12-15T11:55:11Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。