論文の概要: Event-Driven Video Generation
- arxiv url: http://arxiv.org/abs/2603.13402v1
- Date: Thu, 12 Mar 2026 00:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.168847
- Title: Event-Driven Video Generation
- Title(参考訳): イベント駆動ビデオ生成
- Authors: Chika Maduabuchi,
- Abstract要約: 最先端のテキスト・ビデオモデルはしばしば、フレーム単位で現実的なように見えるが、単純なインタラクションでは失敗する。
これは、いつどこで相互作用がアクティブかを明確に定義することなく、すべてのステップで潜在状態を更新するフレームファーストのデノベーションに起因している、と我々は主張する。
イベント駆動ビデオ生成(EVD)について紹介する。
- 参考スコア(独自算出の注目度): 0.08460698440162889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art text-to-video models often look realistic frame-by-frame yet fail on simple interactions: motion starts before contact, actions are not realized, objects drift after placement, and support relations break. We argue this stems from frame-first denoising, which updates latent state everywhere at every step without an explicit notion of when and where an interaction is active. We introduce Event-Driven Video Generation (EVD), a minimal DiT-compatible framework that makes sampling event-grounded: a lightweight event head predicts token-aligned event activity, event-grounded losses couple activity to state change during training, and event-gated sampling (with hysteresis and early-step scheduling) suppresses spurious updates while concentrating updates during interactions. On EVD-Bench, EVD consistently improves human preference and VBench dynamics, substantially reducing failure modes in state persistence, spatial accuracy, support relations, and contact stability without sacrificing appearance. These results indicate that explicit event grounding is a practical abstraction for reducing interaction hallucinations in video generation.
- Abstract(参考訳): 最先端のテキスト・ビデオ・モデルは、しばしば現実的なフレーム・バイ・フレームに見えるが、単純なインタラクションでは失敗する: 動きは接触前に開始される、アクションは実現されない、オブジェクトは配置後にドリフトし、サポート関係は壊れる。
これは、いつどこで相互作用がアクティブかを明確に定義することなく、すべてのステップで潜在状態を更新するフレームファーストのデノベーションに起因している、と我々は主張する。
軽量なイベントヘッドは、トークン整列イベントアクティビティを予測し、トレーニング中の状態変化に対するイベント基底損失と、イベントゲートサンプリング(ヒステリシスとアーリーステップスケジューリングを含む)は、インタラクション中の更新に集中しながら、急激な更新を抑制する。
EVD-Benchでは、EVDは人間の嗜好とVBenchのダイナミクスを一貫して改善し、外観を犠牲にすることなく、状態持続性、空間精度、サポート関係、接触安定性を著しく低下させる。
これらの結果から,ビデオ生成における相互作用幻覚を低減するために,明示的なイベントグラウンディングが実用的な抽象化であることが示唆された。
関連論文リスト
- RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentangled Representation [25.898452981956364]
イベントカメラはスパースだが時間的に高解像度のモーション情報を提供する。
ダイナミックビジョンセンサー(DVS)の閾値を上げることでノイズを低減できるが、これは必然的にイベントの過度な報告を引き起こす。
本稿では,モダリティ特異的な不整合表現を備えたロバストイベント誘導型デブロワーリングネットワークを提案する。
論文 参考訳(メタデータ) (2025-09-06T01:07:08Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - EventZoom: A Progressive Approach to Event-Based Data Augmentation for Enhanced Neuromorphic Vision [9.447299017563841]
ダイナミックビジョンセンサー(DVS)は、高時間分解能と低消費電力でイベントデータをキャプチャする。
イベントデータ拡張は、イベントデータセットのスケールと多様性の制限を克服するための重要な方法である。
論文 参考訳(メタデータ) (2024-05-29T08:39:31Z) - Enhancing Asynchronous Time Series Forecasting with Contrastive
Relational Inference [21.51753838306655]
時間点プロセス(TPP)は、そのようなモデリングの標準的な方法である。
既存のTPPモデルは、イベントの相互作用を明示的にモデル化する代わりに、将来のイベントの条件分布に焦点を当てており、イベント予測の課題を示唆している。
本稿では,ニューラル推論(NRI)を利用して,観測データから動的パターンを同時に学習しながら,相互作用を推論するグラフを学習する手法を提案する。
論文 参考訳(メタデータ) (2023-09-06T09:47:03Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。
イベントベースビジュアル・オドメトリー(VO)に焦点をあてる
動作最適化のバックエンドとして非同期構造を提案する。
論文 参考訳(メタデータ) (2022-03-02T11:28:47Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。