論文の概要: MOSA: Motion-Guided Semantic Alignment for Dynamic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2604.19631v1
- Date: Tue, 21 Apr 2026 16:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.864693
- Title: MOSA: Motion-Guided Semantic Alignment for Dynamic Scene Graph Generation
- Title(参考訳): MOSA:動的シーングラフ生成のためのモーションガイド付きセマンティックアライメント
- Authors: Xuejiao Wang, Bohao Zhang, Changbo Wang, Gaoqi He,
- Abstract要約: 本稿では動的シーングラフ生成(DSGG)のための動作誘導型セマンティックアライメント手法を提案する。
MoSAは、距離、速度、動きの持続性、方向整合性などのオブジェクト対運動特性を符号化する。
クロスモーダルなアクションセマンティックマッチング機構は、視覚的関係特徴と関係カテゴリのテキスト埋め込みを一致させる。
- 参考スコア(独自算出の注目度): 27.7774056956553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic Scene Graph Generation (DSGG) aims to structurally model objects and their dynamic interactions in video sequences for high-level semantic understanding. However, existing methods struggle with fine-grained relationship modeling, semantic representation utilization, and the ability to model tail relationships. To address these issues, this paper proposes a motion-guided semantic alignment method for DSGG (MoSA). First, a Motion Feature Extractor (MFE) encodes object-pair motion attributes such as distance, velocity, motion persistence, and directional consistency. Then, these motion attributes are fused with spatial relationship features through the Motion-guided Interaction Module (MIM) to generate motion-aware relationship representations. To further enhance semantic discrimination capabilities, the cross-modal Action Semantic Matching (ASM) mechanism aligns visual relationship features with text embeddings of relationship categories. Finally, a category-weighted loss strategy is introduced to emphasize learning of tail relationships. Extensive and rigorous testing shows that MoSA performs optimally on the Action Genome dataset.
- Abstract(参考訳): 動的シーングラフ生成(DSGG)は、高レベルのセマンティック理解のためのビデオシーケンスにおけるオブジェクトとその動的相互作用を構造的にモデル化することを目的としている。
しかし、既存の手法では、微粒な関係モデリング、意味表現の活用、尾関係をモデル化する能力に苦慮している。
本稿では,DSGG(MoSA)の動作誘導型セマンティックアライメント手法を提案する。
まず、MFE(Motion Feature Extractor)は、距離、速度、動きの持続性、方向整合性などのオブジェクト対運動特性を符号化する。
そして、これらの動き特性を、動き誘導相互作用モジュール(MIM)を介して空間的関係特徴と融合させ、動き認識関係表現を生成する。
セマンティック識別機能を強化するために、クロスモーダルアクションセマンティックマッチング(ASM)機構は、視覚的関係特徴と関係カテゴリのテキスト埋め込みを協調する。
最後に、尾関係の学習を強調するために、カテゴリー重み付き損失戦略を導入する。
広範囲で厳密なテストの結果、MoSAはAction Genomeデータセット上で最適なパフォーマンスを示している。
関連論文リスト
- InstrAct: Towards Action-Centric Understanding in Instructional Videos [12.356484522873577]
InstrActionは、インストラクショナルビデオのアクション中心表現のための事前トレーニングフレームワークである。
まず、ノイズの多いキャプションをフィルタリングし、アクション中心のハードネガティブを生成する、データ駆動型戦略を導入する。
視覚的特徴レベルでは、Action Perceiverは、冗長なビデオエンコーディングからモーション関連トークンを抽出する。
論文 参考訳(メタデータ) (2026-04-09T20:51:13Z) - IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - A Renaissance of Explicit Motion Information Mining from Transformers for Action Recognition [87.12969639957441]
行動認識は、文脈集約能力のおかげで、トランスフォーマーベースの手法によって支配されている。
本稿では,これらの効果的な動作モデリング特性を,統一的かつ適切な方法で既存の変圧器に統合することを提案する。
提案手法は,既存の最先端手法,特に動きに敏感なデータセットよりも優れている。
論文 参考訳(メタデータ) (2025-10-21T15:01:48Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Text-Derived Relational Graph-Enhanced Network for Skeleton-Based Action Segmentation [14.707224594220264]
本稿では,モデリングと監視の両面を強化するために,テキストDerived Graph Network (TRG-Net)を提案する。
モデリングでは、動的時空間融合モデリング (Dynamic Spatio-Temporal Fusion Modeling, D) 法は、JGT (Text-Derived Joint Graphs) とチャネル適応を組み込む。
ARIS(Absolute-Relative Inter-Class Supervision)法では、絶対クラスを正規化するためにアクション特徴とテキスト埋め込みの対比学習を用いる。
論文 参考訳(メタデータ) (2025-03-19T11:38:14Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。