論文の概要: MATRIX: Mask Track Alignment for Interaction-aware Video Generation
- arxiv url: http://arxiv.org/abs/2510.07310v1
- Date: Wed, 08 Oct 2025 17:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.687974
- Title: MATRIX: Mask Track Alignment for Interaction-aware Video Generation
- Title(参考訳): MATRIX:インタラクション対応ビデオ生成のためのマスクトラックアライメント
- Authors: Siyoon Jin, Seongchan Kim, Dahyun Chung, Jaeho Lee, Hyunwook Choi, Jisu Nam, Jiyoung Kim, Seungryong Kim,
- Abstract要約: ビデオDiTの2つの視点:意味的接地と意味的伝播を定式化する。
そこで我々は, 単純かつ効果的な正規化である MATRIX を導入する。
また,対話型ビデオ生成のための評価プロトコルであるInterGenEvalを提案する。
- 参考スコア(独自算出の注目度): 38.87138955033577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video DiTs have advanced video generation, yet they still struggle to model multi-instance or subject-object interactions. This raises a key question: How do these models internally represent interactions? To answer this, we curate MATRIX-11K, a video dataset with interaction-aware captions and multi-instance mask tracks. Using this dataset, we conduct a systematic analysis that formalizes two perspectives of video DiTs: semantic grounding, via video-to-text attention, which evaluates whether noun and verb tokens capture instances and their relations; and semantic propagation, via video-to-video attention, which assesses whether instance bindings persist across frames. We find both effects concentrate in a small subset of interaction-dominant layers. Motivated by this, we introduce MATRIX, a simple and effective regularization that aligns attention in specific layers of video DiTs with multi-instance mask tracks from the MATRIX-11K dataset, enhancing both grounding and propagation. We further propose InterGenEval, an evaluation protocol for interaction-aware video generation. In experiments, MATRIX improves both interaction fidelity and semantic alignment while reducing drift and hallucination. Extensive ablations validate our design choices. Codes and weights will be released.
- Abstract(参考訳): ビデオDiTには高度なビデオ生成機能があるが、それでもマルチインスタンスや対象物との相互作用をモデル化するのに苦労している。
これらのモデルは、どのようにして内部的に相互作用を表現するのか?
そこで我々は,対話対応キャプションとマルチインスタンスマスクトラックを備えたビデオデータセットであるMATRIX-11Kをキュレートした。
このデータセットを用いて、ビデオDiTの2つの視点を形式化する体系的解析を行う。意味的グラウンド化(セマンティックグラウンド化)は、名詞と動詞のトークンがインスタンスとそれらの関係をキャプチャするかどうかを評価する。
どちらの効果も相互作用支配層の小さな部分集合に集中している。
そこで本研究では,MATRIX-11Kデータセットから得られたマルチインスタンスマスクトラックを用いて,ビデオDiTの特定の層に注意を向ける,シンプルで効果的な正規化手法であるMATRIXを紹介する。
さらに,対話型ビデオ生成のための評価プロトコルであるInterGenEvalを提案する。
実験では、MATRIXはドリフトと幻覚を低減しつつ、相互作用の忠実度と意味的アライメントの両方を改善している。
大規模な改善は、私たちの設計選択を検証します。
コードと重みはリリースされます。
関連論文リスト
- OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [96.31455979495398]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。
また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。
本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2025-06-29T18:43:00Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation [62.56037816595509]
Mask$2$DiTは、ビデオセグメントとその対応するテキストアノテーション間の微細で1対1のアライメントを確立する。
このアテンション機構は、正確にセグメントレベルのテキストと視覚のアライメントを可能にする。
Mask$2$DiTはセグメント間の視覚的一貫性を維持しつつ、各セグメントとその対応するテキスト記述間のセマンティックアライメントを保証する。
論文 参考訳(メタデータ) (2025-03-25T17:46:50Z) - CrossVideoMAE: Self-Supervised Image-Video Representation Learning with Masked Autoencoders [6.159948396712944]
CrossVideoMAEはビデオレベルとフレームレベルのリッチテンポラル表現とセマンティック属性の両方を学ぶ。
提案手法は,ビデオからの時間的情報とサンプルフレームからの空間的情報を統合する。
これは、ビデオおよびフレーム画像のモダリティから、リッチでラベルなしなガイド信号の自己教師型取得に不可欠である。
論文 参考訳(メタデータ) (2025-02-08T06:15:39Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。