論文の概要: Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2412.07160v2
- Date: Thu, 19 Dec 2024 00:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:19.260344
- Title: Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation
- Title(参考訳): 時間的パノラマシーングラフ生成のための運動認識コントラスト学習
- Authors: Thong Thanh Nguyen, Xiaobao Wu, Yi Bin, Cong-Duy T Nguyen, See-Kiong Ng, Anh Tuan Luu,
- Abstract要約: 本研究では,時間的シーングラフ生成のための動きパターンに着目したコントラスト表現学習フレームワークを提案する。
我々の枠組みは,類似の主題関係オブジェクト三重項のマスクチューブの近接表現をモデルに学習させることを奨励する。
また、同じビデオに属するマスクチューブの遠隔表現も学習します。
- 参考スコア(独自算出の注目度): 40.974084072738954
- License:
- Abstract: To equip artificial intelligence with a comprehensive understanding towards a temporal world, video and 4D panoptic scene graph generation abstracts visual data into nodes to represent entities and edges to capture temporal relations. Existing methods encode entity masks tracked across temporal dimensions (mask tubes), then predict their relations with temporal pooling operation, which does not fully utilize the motion indicative of the entities' relation. To overcome this limitation, we introduce a contrastive representation learning framework that focuses on motion pattern for temporal scene graph generation. Firstly, our framework encourages the model to learn close representations for mask tubes of similar subject-relation-object triplets. Secondly, we seek to push apart mask tubes from their temporally shuffled versions. Moreover, we also learn distant representations for mask tubes belonging to the same video but different triplets. Extensive experiments show that our motion-aware contrastive framework significantly improves state-of-the-art methods on both video and 4D datasets.
- Abstract(参考訳): 時間的世界に向けて人工知能を包括的に理解させるため、映像及び4Dパノラマシーングラフ生成は、視覚データをノードに抽象化してエンティティやエッジを表現し、時間的関係を捕捉する。
既存の手法では、時間次元(マスク管)で追跡されたエンティティマスクを符号化し、時間プール操作との関係を予測している。
この制限を克服するために、時間的シーングラフ生成のための動きパターンに焦点を当てたコントラスト表現学習フレームワークを導入する。
まず,本フレームワークは,類似の主題-対象三重項を持つマスクチューブの近接表現をモデルに学習させる。
第二に、マスクチューブを時間的にシャッフルしたバージョンから切り離そうとしています。
また,同じビデオに属するマスクチューブの遠隔表現も学習する。
広汎な実験により、動画と4Dデータセットの両方において、モーションアウェアなコントラストフレームワークが最先端の手法を大幅に改善することが示された。
関連論文リスト
- Temporal Residual Jacobians For Rig-free Motion Transfer [45.640576754352104]
データ駆動型モーショントランスファーを実現するための新しい表現としてResidual Temporal Jacobiansを紹介した。
我々の手法は、リギングや中間形状へのアクセスを前提とせず、幾何学的かつ時間的に一貫した動きを発生させ、長い動き列の転送に利用できる。
論文 参考訳(メタデータ) (2024-07-20T18:29:22Z) - Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - V3GAN: Decomposing Background, Foreground and Motion for Video
Generation [4.791233143264228]
本研究では,映像生成タスクを前景,背景,動きの合成に分解する手法を提案する。
前景と背景は共に外観を記述するが、動きは前景が時間とともに動画の中でどのように動くかを特定する。
本稿では,新しい3分岐生成対向ネットワークであるV3GANを提案する。
論文 参考訳(メタデータ) (2022-03-26T13:17:45Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。