論文の概要: SARA: Semantically Adaptive Relational Alignment for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.07800v1
- Date: Fri, 08 May 2026 14:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.119659
- Title: SARA: Semantically Adaptive Relational Alignment for Video Diffusion Models
- Title(参考訳): SARA:ビデオ拡散モデルのための意味的適応型関係アライメント
- Authors: Jiesong Lian, Zixiang Zhou, Ruizhe Zhong, Yuan Zhou, Qinglin Lu, Rui Wang, Long Hu, Yixue Hao, Baoru Huang,
- Abstract要約: 最近の拡散モデル(VDM)は、視覚的に説得力のあるクリップを合成するが、それでも実体や誤結合属性を落とし、プロンプトアライメントルーブリックで指定された相互作用を弱める。
我々は,凍結したVFMターゲットにトークン関係を保ち,どのトークンペアが監督を行うかを決定するためのテキスト条件付きサリエンシを付加する適応表現アライメント(SARA)を提案する。
- 参考スコア(独自算出の注目度): 24.580427340782524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video diffusion models (VDMs) synthesize visually convincing clips, yet still drop entities, mis-bind attributes, and weaken the interactions specified in the prompt. Representation-alignment objectives such as VideoREPA and MoAlign improve fine-grained text following by distilling spatio-temporal token relations from a frozen visual foundation model, but their pairwise supervision budget is allocated by visual or motion cues rather than by how relevant each pair is to the prompt. We present SARA, Semantically Adaptive Relational Alignment, which keeps token-relation distillation (TRD) on a frozen VFM target and adds a text-conditioned saliency that decides which token pairs carry supervision. A lightweight Stage 1 aligner is trained with per-entity SAM 3.1 mask supervision and an InfoNCE regulariser, and its continuous saliency is fused into TRD through a pair-routing operator that assigns each token pair a weight whenever either of its two endpoints is salient, thereby routing supervision toward subject-subject and subject-background pairs and away from background-background ones. In the Wan2.2 continual-training setting, SARA improves both text alignment and motion quality over SFT, VideoREPA, and MoAlign on a 13-dimension VLM rubric, on the public VBench benchmarks, and in a blind user study.
- Abstract(参考訳): 最近のビデオ拡散モデル(VDM)は、視覚的に説得力のあるクリップを合成するが、それでも実体を落とし、誤結合属性を減らし、プロンプトで指定された相互作用を弱める。
VideoREPAやMoAlignのような表現調整目的は、凍結した視覚基盤モデルから時空間トークン関係を蒸留することにより、微細なテキストを改良するが、それらの相互監督予算は、それぞれのペアがプロンプトにどの程度関連しているかではなく、視覚的または運動的キューによって配分される。
本稿では,凍結したVFMターゲットに,トークン関連蒸留(TRD)を保存し,どのトークンペアが監督を行うかを決定するためのテキスト条件付き塩分を付加するSARAについて述べる。
軽量ステージ1整列器は、有意なSAM3.1マスク監視とInfoNCE正規化器で訓練され、2つのエンドポイントのいずれかが正常であるたびに各トークンペアに重みを割り当てるペアルーチン演算子を介して、その連続的なサリエンシをRDに融合させて、主観対象と主観対象と主観対象とのペアに対して監督をルーティングし、バックグラウンドバックグランドから遠ざける。
Wan2.2では、SARAはSFT、VideoREPA、MoAlign上のテキストアライメントとモーションクオリティを13次元のVLMルーブリック、パブリックなVBenchベンチマーク、ブラインドユーザスタディで改善している。
関連論文リスト
- Revisiting Weakly-Supervised Video Scene Graph Generation via Pair Affinity Learning [33.42009265471664]
弱教師付きビデオシーングラフ生成 (WS-VSGG) は、ボックスアノテーションを行わずにビデオコンテンツを構造化されたリレーショナルトリガにパースすることを目的としている。
対象-対象対間の相互作用の可能性を推定する学習可能なペア親和性を導入する。
当社のアプローチは、さまざまなベースラインとバックボーンにわたって大幅に改善され、最先端のWS-VSGGパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2026-03-23T04:28:51Z) - SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing [76.349958946335]
本稿では,映像編集をセマンティックアンカーとモーションモデリングに分解するフレームワークであるSAMA(factorized Semantic Anchoring and Motion Alignment)を提案する。
まずセマンティックアンカリング(Semantic Anchoring)を導入し、スパースアンカフレームでのセマンティックトークンとビデオ潜在者を共同で予測することで、信頼性の高い視覚アンカを確立する。
第2に、モーションアライメントは同じバックボーンをモーション中心のビデオ復元のプリテキストタスクで事前トレーニングする。
論文 参考訳(メタデータ) (2026-03-19T17:59:51Z) - MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment [32.178798481694834]
3つの課題に対処するために設計された,階層的なコントラスト学習フレームワークであるMoBindを紹介する。
モーション関連キューを分離するために、MoBindはIMU信号を生のピクセルではなく骨格的なモーションシーケンスと整列する。
詳細な時間的対応を捉えるために、MoBindは階層的なコントラスト戦略を採用し、まずトークンレベルの時間的セグメントを整列させ、次にグローバル(体全体)のモーションアグリゲーションと局所的な(身体部分)アライメントを融合させる。
論文 参考訳(メタデータ) (2026-02-22T01:54:29Z) - Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models [41.59364061354628]
Image-to-Video(I2V)生成は、参照画像とテキストプロンプトからビデオを合成することを目的としている。
既存のI2Vモデルは視覚的一貫性を優先する。
この2つのガイダンスを効果的に組み合わせて、テキストプロンプトへの強い固執を確実にする方法は、まだ検討されていない。
論文 参考訳(メタデータ) (2026-01-12T07:48:26Z) - Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing [26.317163478761916]
弱教師付き音声視覚ビデオ解析は、時間的アノテーションを使わずに、可聴性、可視性、および音声視覚イベントを検出する。
本稿では,信頼度の高いセグメントレベルのマスクを生成する指数移動平均(EMA)誘導擬似監視フレームワークを提案する。
また,クラス対応のクロスモーダル・アグリーメント(CMA)の損失も提案する。
論文 参考訳(メタデータ) (2025-09-17T15:38:05Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models [31.138079872368532]
トレーニングデータの特定の属性を反映したビデオを生成するための、ユーザレベルでの微調整ビデオ拡散モデル(VDM)は、注目すべき課題である。
Representation Alignment (REPA)のような最近の研究は、DiTベースの画像拡散モデルの収束と品質を改善することを約束している。
フレームの隠れ状態と隣接するフレームの外部特徴を整列する新しい正規化手法であるCross-frame Representation Alignment(CREPA)を導入する。
論文 参考訳(メタデータ) (2025-06-10T20:34:47Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。