論文の概要: STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding
- arxiv url: http://arxiv.org/abs/2207.02756v1
- Date: Wed, 6 Jul 2022 15:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 13:51:04.311444
- Title: STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding
- Title(参考訳): STVGFormer:静的動的クロスモーダル理解による時空間ビデオグラウンドディング
- Authors: Zihang Lin, Chaolei Tan, Jian-Fang Hu, Zhi Jin, Tiancai Ye, Wei-Shi
Zheng
- Abstract要約: 静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
- 参考スコア(独自算出の注目度): 68.96574451918458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we introduce our solution to human-centric
spatio-temporal video grounding task. We propose a concise and effective
framework named STVGFormer, which models spatiotemporal visual-linguistic
dependencies with a static branch and a dynamic branch. The static branch
performs cross-modal understanding in a single frame and learns to localize the
target object spatially according to intra-frame visual cues like object
appearances. The dynamic branch performs cross-modal understanding across
multiple frames. It learns to predict the starting and ending time of the
target moment according to dynamic visual cues like motions. Both the static
and dynamic branches are designed as cross-modal transformers. We further
design a novel static-dynamic interaction block to enable the static and
dynamic branches to transfer useful and complementary information from each
other, which is shown to be effective to improve the prediction on hard cases.
Our proposed method achieved 39.6% vIoU and won the first place in the HC-STVG
track of the 4th Person in Context Challenge.
- Abstract(参考訳): 本稿では,人間中心の時空間ビデオグラウンドタスクに対する解決策を紹介する。
静的ブランチと動的ブランチで時空間的視覚言語依存をモデル化するstvgformerという簡潔で効果的なフレームワークを提案する。
静的ブランチは、単一のフレームでクロスモーダル理解を行い、オブジェクトの外観のようなフレーム内視覚的キューに従って、ターゲットオブジェクトを空間的にローカライズすることを学ぶ。
ダイナミックブランチは複数のフレームにまたがってクロスモーダルな理解を行う。
動きのようなダイナミックな視覚的手がかりに従って、ターゲットモーメントの開始と終了時間の予測を学ぶ。
静的分岐と動的分岐はクロスモーダルトランスとして設計されている。
さらに,静的枝と動的枝が相互に有益で相補的な情報を伝達できるように,新たな静的-動的相互作用ブロックを設計した。
提案手法は39.6%のvIoUを達成し,第4回コンテキストチャレンジのHC-STVGトラックで優勝した。
関連論文リスト
- DualAD: Disentangling the Dynamic and Static World for End-to-End Driving [11.379456277711379]
自動運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合する。
動的エージェントと静的シーン要素を分離する専用表現を提案する。
DualADというタイトルの手法は、独立に訓練されたシングルタスクネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-06-10T13:46:07Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z) - Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Efficient 3D Reconstruction, Streaming and Visualization of Static and
Dynamic Scene Parts for Multi-client Live-telepresence in Large-scale
Environments [6.543101569579952]
本研究では,静的シーンと動的シーンの双方で,部屋規模を超えて大規模環境下での3Dライブテレプレゼンス体験の共有を目指す。
我々のシステムは、リアルタイムに近い速度でVRベースのライブテレプレゼンスを実現することができる。
論文 参考訳(メタデータ) (2022-11-25T18:59:54Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM [6.693607456009373]
本稿では,シーンの静的な画像を得るためのデータ駆動型アプローチを提案する。
本研究では,都市環境の画像を局所化とマッピングに適したリアルな静的フレームに変換するためのエンドツーエンドのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-15T10:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。