論文の概要: How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation
- arxiv url: http://arxiv.org/abs/2603.07540v1
- Date: Sun, 08 Mar 2026 09:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.792064
- Title: How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation
- Title(参考訳): 統合型マルチモーダルモデルによる画像生成の信頼性はどの程度か?-コンテキストキュレーションによる長距離インターリーブ画像生成を例に
- Authors: Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu,
- Abstract要約: 我々は、蓄積された視覚履歴が、生のトークン数ではなく画像イベントの数によって特に支配される、アクティブな汚染の源として機能すると主張している。
完全リコールよりも安全な条件付けを優先するトレーニングフリー推論戦略であるUniLongGenを提案する。
- 参考スコア(独自算出の注目度): 42.432491845154445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models hold the promise of generating extensive, interleaved narratives, weaving text and imagery into coherent long-form stories. However, current systems suffer from a critical reliability gap: as sequences grow, generation quality rapidly collapses. In this work, we investigate the mechanism behind this failure and argue that it is distinct from standard long-context challenges. We reveal that in generation, accumulated visual history acts as a source of active pollution, a decay governed specifically by the number of image events rather than raw token count. We identify a structural vulnerability where dense visual tokens overwhelm the attention mechanism, creating noise that distorts future synthesis. Guided by these mechanistic insights, we propose UniLongGen, a training-free inference strategy that prioritizes safe conditioning over total recall. Instead of retaining all history, UniLongGen dynamically curates the model's memory, identifying and discarding interfering visual signals based on the model's own internal relevance rankings. Extensive experiments demonstrate that this active forgetting approach is essential for stability: UniLongGen significantly outperforms baselines in long-horizon fidelity and consistency, while simultaneously reducing memory footprint and inference time.
- Abstract(参考訳): 統一されたマルチモーダルモデルは、広範かつインターリーブな物語を生成し、テキストとイメージを一貫性のあるロングフォームなストーリーに織り込むことを約束する。
しかし、現在のシステムは、シーケンスが大きくなるにつれて、生成の品質が急速に低下する、重大な信頼性のギャップに悩まされている。
本研究では,この障害の原因となるメカニズムを考察し,それが標準的な長期的課題とは異なっていることを論じる。
生成過程において,蓄積された視覚履歴は,生のトークン数ではなく,画像イベントの数によって特に支配される,アクティブな汚染の源として機能することが明らかとなった。
我々は、高密度な視覚トークンが注意機構を圧倒し、将来の合成を歪ませるノイズを生み出す構造的脆弱性を同定する。
これらの力学的な知見に導かれ、我々は、完全リコールよりも安全な条件付けを優先するトレーニングフリー推論戦略であるUniLongGenを提案する。
すべての履歴を保持する代わりに、UniLongGenはモデルのメモリを動的にキュレートし、モデルの内部関連ランキングに基づいて視覚信号の干渉を識別し破棄する。
UniLongGenは、メモリフットプリントと推論時間を同時に減らしながら、長い水平フィディリティと一貫性においてベースラインを大幅に上回る。
関連論文リスト
- LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。
我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。
URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T17:59:57Z) - LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE [16.561410415129778]
LongScapeは、チャンク内拡散とチャンク間自己回帰因果生成を組み合わせたハイブリッドフレームワークである。
私たちの中心となるイノベーションは、ロボットアクションのセマンティックコンテキストに基づいてビデオを分割するアクションガイド付き可変長チャンキングメカニズムです。
論文 参考訳(メタデータ) (2025-09-26T02:47:05Z) - Consistent Story Generation: Unlocking the Potential of Zigzag Sampling [28.840489323906198]
非対称なプロンプトとビジュアルシェアリングを備えたZigzag Smplingと呼ばれる新しいトレーニング不要サンプリング戦略を導入する。
提案手法は、非対称なプロンプト間の交互に対象特性を保持するジグザグサンプリング機構を提案する。
本手法は,コヒーレントで一貫した視覚的ストーリーの生成において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-11T11:14:27Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。