論文の概要: EgoLCD: Egocentric Video Generation with Long Context Diffusion
- arxiv url: http://arxiv.org/abs/2512.04515v1
- Date: Thu, 04 Dec 2025 06:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.032054
- Title: EgoLCD: Egocentric Video Generation with Long Context Diffusion
- Title(参考訳): EgoLCD: 長期拡散によるエゴセントリックビデオ生成
- Authors: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang,
- Abstract要約: EgoLCDは、エゴセントリックな長文ビデオ生成のためのエンドツーエンドフレームワークである。
安定したグローバルコンテキストのための長期スパースKVキャッシュとアテンションベースの短期メモリを組み合わせる。
EgoLCDは知覚的品質と時間的一貫性の両方において最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 11.039806330368153
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
- Abstract(参考訳): 長いコヒーレントなエゴセントリックなビデオを生成することは困難であり、手動オブジェクトの相互作用と手続き的なタスクは信頼できる長期記憶を必要とする。
既存の自己回帰モデルはコンテンツドリフトに悩まされ、オブジェクトのアイデンティティとシーンセマンティクスは時間とともに劣化する。
この課題に対処するために,エゴセントリックな長文ビデオ生成のためのエンドツーエンドフレームワークであるEgoLCDを導入する。
EgoLCDは、安定したグローバルコンテキストのための長期スパースKVキャッシュと、LoRAがローカル適応のために拡張したアテンションベースの短期記憶を組み合わせたものである。
メモリレギュレーション損失(Memory Regulation Loss)は、一貫したメモリ使用を強制し、構造化ナラティブ・プロンプティング(Structured Narrative Prompting)は、明確な時間的ガイダンスを提供する。
EgoVid-5Mベンチマークの大規模な実験は、EgoLCDが知覚的品質と時間的一貫性の両方において最先端のパフォーマンスを実現し、生成的忘れを効果的に軽減し、AIを具現化するためのスケーラブルな世界モデルを構築するための重要なステップを示すことを実証している。
コード:https://github.com/AIGeeksGroup/EgoLCD。
Webサイト: https://aigeeksgroup.github.io/EgoLCD.com
関連論文リスト
- VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory [42.2374676860638]
自己回帰(AR)拡散は、フレームを因果的に生成することで、ストリーミングでインタラクティブな長ビデオ生成を可能にする。
微小スケールの地平線上でのコヒーレンスを維持することは、蓄積したエラー、動きのドリフト、およびコンテンツ反復のために依然として困難である。
我々は、AR拡散をハイブリッドな状態空間メモリと統合する長ビデオモデルVideoSSMを提案する。
論文 参考訳(メタデータ) (2025-12-04T07:06:02Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory [59.869552603264076]
GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。
これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。
実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
論文 参考訳(メタデータ) (2025-11-15T04:29:00Z) - Pack and Force Your Memory: Long-form and Consistent Video Generation [26.53691150499802]
ロングフォームビデオ生成は2つの課題を提示します。
モデルは、自動回帰復号に固有のエラーの蓄積を防止しながら、長距離依存関係をキャプチャしなければなりません。
MemoryPackとDirect Forcingは、長期ビデオ生成のコンテキスト一貫性と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-02T08:22:46Z) - LongLive: Real-time Interactive Long Video Generation [68.45945318075432]
LongLiveはリアルタイムおよびインタラクティブなロングビデオ生成のためのフレームレベルの自動回帰フレームワークである。
LongLiveは1つのNVIDIA H100上で20.7 FPSを持続し、短いビデオと長いビデオの両方でVBenchで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-26T17:48:24Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。