論文の概要: Video Relation Detection with Trajectory-aware Multi-modal Features
- arxiv url: http://arxiv.org/abs/2101.08165v1
- Date: Wed, 20 Jan 2021 14:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:22:33.921478
- Title: Video Relation Detection with Trajectory-aware Multi-modal Features
- Title(参考訳): 軌道対応マルチモーダル特徴を用いた映像関係検出
- Authors: Wentao Xie, Guanghui Ren, Si Liu
- Abstract要約: 本稿では,軌道認識型マルチモーダル特徴を用いた映像関係検出手法を提案する。
ACM Multimedia 2020におけるビデオ関係理解グランドチャレンジのビデオ関係検出タスクにおいて,11.74% mAPで優勝した。
- 参考スコア(独自算出の注目度): 13.358584829993193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video relation detection problem refers to the detection of the relationship
between different objects in videos, such as spatial relationship and action
relationship. In this paper, we present video relation detection with
trajectory-aware multi-modal features to solve this task.
Considering the complexity of doing visual relation detection in videos, we
decompose this task into three sub-tasks: object detection, trajectory proposal
and relation prediction. We use the state-of-the-art object detection method to
ensure the accuracy of object trajectory detection and multi-modal feature
representation to help the prediction of relation between objects. Our method
won the first place on the video relation detection task of Video Relation
Understanding Grand Challenge in ACM Multimedia 2020 with 11.74\% mAP, which
surpasses other methods by a large margin.
- Abstract(参考訳): ビデオ関係検出問題は、空間的関係やアクション関係など、ビデオ内の異なるオブジェクト間の関係を検出することを指す。
本稿では,この課題を解決するために,トラジェクトリ対応マルチモーダル特徴を用いた映像関係検出を提案する。
ビデオにおける視覚的関係検出の複雑さを考慮すると、このタスクをオブジェクト検出、軌道提案、関係予測の3つのサブタスクに分解する。
我々は,最先端の物体検出法を用いて,物体の軌跡検出精度とマルチモーダル特徴表現の精度を保証し,物体間の関係の予測を支援する。
本手法は,ACM Multimedia 2020におけるビデオ関係理解グランドチャレンジの動画関係検出タスクにおいて,11.74 % mAP を突破し,他の手法を大差で上回った。
関連論文リスト
- End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Multi-Task Learning based Video Anomaly Detection with Attention [1.2944868613449219]
本稿では,動作と外観をよりよく考慮するために,補完的なプロキシタスクを組み合わせた新しいマルチタスク学習手法を提案する。
我々は1つのブランチにおけるセマンティックセグメンテーションと将来のフレーム予測タスクを組み合わせて、オブジェクトクラスと一貫した動作パターンを学習する。
第2枝では、対象部位、動き方向、カメラからの物体の距離に注意を向けた動き異常を検出するためのいくつかの注意機構を付加した。
論文 参考訳(メタデータ) (2022-10-14T10:40:20Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。
埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。
まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文 参考訳(メタデータ) (2022-05-22T06:54:33Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Object-Aware Multi-Branch Relation Networks for Spatio-Temporal Video
Grounding [90.12181414070496]
本稿では,オブジェクト認識関係探索のための新しいオブジェクト認識型マルチブランチ関係ネットワークを提案する。
次に,主枝と補助枝の間の重要な対象関係を捉えるためのマルチブランチ推論を提案する。
論文 参考訳(メタデータ) (2020-08-16T15:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。