論文の概要: Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
- arxiv url: http://arxiv.org/abs/2404.03645v1
- Date: Thu, 4 Apr 2024 17:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:42:53.598111
- Title: Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
- Title(参考訳): ビデオセグメンテーション参照のための静的・階層的動作知覚の分離
- Authors: Shuting He, Henghui Ding,
- Abstract要約: 本稿では,映像レベルの参照表現理解を静的および運動知覚に分離することを提案する。
我々は、視覚的に類似した物体の動きを区別するために、対照的な学習を採用する。
これらのコントリビューションは、5つのデータセットにまたがって最先端のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 32.11635464720755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video segmentation relies on natural language expressions to identify and segment objects, often emphasizing motion clues. Previous works treat a sentence as a whole and directly perform identification at the video-level, mixing up static image-level cues with temporal motion cues. However, image-level features cannot well comprehend motion cues in sentences, and static cues are not crucial for temporal perception. In fact, static cues can sometimes interfere with temporal perception by overshadowing motion cues. In this work, we propose to decouple video-level referring expression understanding into static and motion perception, with a specific emphasis on enhancing temporal comprehension. Firstly, we introduce an expression-decoupling module to make static cues and motion cues perform their distinct role, alleviating the issue of sentence embeddings overlooking motion cues. Secondly, we propose a hierarchical motion perception module to capture temporal information effectively across varying timescales. Furthermore, we employ contrastive learning to distinguish the motions of visually similar objects. These contributions yield state-of-the-art performance across five datasets, including a remarkable $\textbf{9.2%}$ $\mathcal{J\&F}$ improvement on the challenging $\textbf{MeViS}$ dataset. Code is available at https://github.com/heshuting555/DsHmp.
- Abstract(参考訳): ビデオセグメンテーションの参照は、オブジェクトの識別とセグメンテーションに自然言語表現に依存しており、しばしば動きの手がかりを強調する。
従来の作業は文全体を扱い、ビデオレベルで直接識別を行い、静的な画像レベルのキューと時間的な動きのキューを混ぜる。
しかし、画像レベルの特徴は文中の動きの手がかりを十分に理解することができず、静的な手がかりは時間的知覚には不可欠ではない。
実際、静的な手がかりは時相的な知覚に干渉することがある。
本研究では,映像レベルの参照表現理解を静的および運動知覚に分離し,時間的理解の強化に重点を置くことを提案する。
まず、静的なキューとモーションキューがそれぞれ異なる役割を果たすように表現分離モジュールを導入し、モーションキューを見下ろす文埋め込みの問題を軽減する。
第2に,時間スケールの異なる時間領域において,時間的情報を効果的に捕捉する階層的動き知覚モジュールを提案する。
さらに、視覚的に類似した物体の動きを区別するために、コントラスト学習を用いる。
これらのコントリビューションは、5つのデータセットにまたがって最先端のパフォーマンスをもたらし、注目すべき$\textbf{9.2%}$ $\mathcal{J\&F}$データセットは、挑戦的な$\textbf{MeViS}$データセットを改善した。
コードはhttps://github.com/heshuting555/DsHmpで入手できる。
関連論文リスト
- LocoMotion: Learning Motion-Focused Video-Language Representations [45.33444862034461]
局所物体の動きと時間的進行を記述した動きに着目したキャプションからLocoMotionを提案する。
ビデオに合成動作を追加し、これらの動きのパラメータを用いて対応するキャプションを生成することで、これを実現する。
論文 参考訳(メタデータ) (2024-10-15T19:33:57Z) - Motion meets Attention: Video Motion Prompts [34.429192862783054]
フレーム差分マップからの動き信号を変調するアテンション機構として,学習可能な傾きとシフトパラメータを持つ修正シグモイド関数を提案する。
このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。
SlowGymやX3D、Timeformerといったモデルに、当社の軽量でプラグアンドプレイのモーションプロンプト層がシームレスに統合されていることが分かりました。
論文 参考訳(メタデータ) (2024-07-03T14:59:46Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。