論文の概要: iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation
- arxiv url: http://arxiv.org/abs/2511.20635v1
- Date: Tue, 25 Nov 2025 18:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.635509
- Title: iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation
- Title(参考訳): iMontage:Unified, Versatile, Highly Dynamic Many-to-Many Image Generation
- Authors: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin,
- Abstract要約: iMontageは、強力なビデオモデルをオールインワンイメージジェネレータに再利用するために設計された統一されたフレームワークである。
本稿では,データキュレーションプロセスとトレーニングパラダイムを補完するエレガントで最小限の適応戦略を提案する。
このアプローチにより、モデルは、その貴重な元の動きを損なうことなく、広い画像操作能力を得ることができる。
- 参考スコア(独自算出の注目度): 60.66986667921744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
- Abstract(参考訳): 事前訓練されたビデオモデルは、高品質で時間的に整合したコンテンツを生成するための強力な先行学習を学習する。
これらのモデルは時間的コヒーレンスで優れているが、その力学はトレーニングデータの連続的な性質によって制約されることが多い。
我々は、このコヒーレントな時間的枠組みに画像データからリッチで制約のない内容の多様性を注入することにより、自然な遷移とはるかに拡張可能なダイナミックレンジの両方を特徴付けるイメージセットを生成することができると仮定する。
この目的のために,強力なビデオモデルをオールインワンイメージジェネレータに再利用するための統合フレームワークiMontageを紹介する。
このフレームワークは可変長の画像集合を消費して生成し、幅広い画像生成と編集タスクを統一する。
そこで本研究では,データキュレーションプロセスとトレーニングパラダイムを補完する,エレガントで最小限の侵襲的適応戦略を提案する。
このアプローチにより、モデルは、その貴重な元の動きを損なうことなく、広い画像操作能力を得ることができる。
iMontageは複数のメインストリームのマルチインアウトタスクに優れており、強いクロスイメージのコンテキスト整合性を維持するだけでなく、従来のスコープを超越した並外れたダイナミックなシーンを生成する。
ホームページは、https://kr1sjfu.github.io/iMontage-web/。
関連論文リスト
- IMAGEdit: Let Any Subject Transform [61.666509860041124]
imageditは、ビデオの被写体編集のためのトレーニング不要のフレームワークである。
非標的領域を維持しながら、複数の指定対象の外観を操作する。
マスク駆動型ビデオ生成モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-01T17:59:56Z) - RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。
カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文 参考訳(メタデータ) (2025-03-13T14:31:52Z) - Grid: Omni Visual Generation [34.57101244093434]
現在のアプローチでは、膨大な計算コストでスクラッチから特別なビデオモデルを構築するか、イメージジェネレータに別のモーションモジュールを追加するかのどちらかである。
現代の画像生成モデルは、暗黙の時間的理解を伴う構造的レイアウトの処理において、未利用の可能性を秘めている。
本稿では,時間的シーケンスをグリッドレイアウトとして再構成し,視覚的シーケンスの全体的処理を可能にするGRIDを提案する。
論文 参考訳(メタデータ) (2024-12-14T07:22:03Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。