論文の概要: Video Relation Detection with Trajectory-aware Multi-modal Features
- arxiv url: http://arxiv.org/abs/2101.08165v1
- Date: Wed, 20 Jan 2021 14:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:22:33.921478
- Title: Video Relation Detection with Trajectory-aware Multi-modal Features
- Title(参考訳): 軌道対応マルチモーダル特徴を用いた映像関係検出
- Authors: Wentao Xie, Guanghui Ren, Si Liu
- Abstract要約: 本稿では,軌道認識型マルチモーダル特徴を用いた映像関係検出手法を提案する。
ACM Multimedia 2020におけるビデオ関係理解グランドチャレンジのビデオ関係検出タスクにおいて,11.74% mAPで優勝した。
- 参考スコア(独自算出の注目度): 13.358584829993193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video relation detection problem refers to the detection of the relationship
between different objects in videos, such as spatial relationship and action
relationship. In this paper, we present video relation detection with
trajectory-aware multi-modal features to solve this task.
Considering the complexity of doing visual relation detection in videos, we
decompose this task into three sub-tasks: object detection, trajectory proposal
and relation prediction. We use the state-of-the-art object detection method to
ensure the accuracy of object trajectory detection and multi-modal feature
representation to help the prediction of relation between objects. Our method
won the first place on the video relation detection task of Video Relation
Understanding Grand Challenge in ACM Multimedia 2020 with 11.74\% mAP, which
surpasses other methods by a large margin.
- Abstract(参考訳): ビデオ関係検出問題は、空間的関係やアクション関係など、ビデオ内の異なるオブジェクト間の関係を検出することを指す。
本稿では,この課題を解決するために,トラジェクトリ対応マルチモーダル特徴を用いた映像関係検出を提案する。
ビデオにおける視覚的関係検出の複雑さを考慮すると、このタスクをオブジェクト検出、軌道提案、関係予測の3つのサブタスクに分解する。
我々は,最先端の物体検出法を用いて,物体の軌跡検出精度とマルチモーダル特徴表現の精度を保証し,物体間の関係の予測を支援する。
本手法は,ACM Multimedia 2020におけるビデオ関係理解グランドチャレンジの動画関係検出タスクにおいて,11.74 % mAP を突破し,他の手法を大差で上回った。
関連論文リスト
- A novel efficient Multi-view traffic-related object detection framework [17.50049841016045]
我々は,多視点ビデオデータを用いた効率的な物体検出を実現するために,CEVASという新しいトラフィック関連フレームワークを提案する。
その結果,本フレームワークは,最先端手法と同じ検出精度を達成しつつ,応答遅延を著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T06:42:37Z) - Multi-Task Learning based Video Anomaly Detection with Attention [1.2944868613449219]
本稿では,動作と外観をよりよく考慮するために,補完的なプロキシタスクを組み合わせた新しいマルチタスク学習手法を提案する。
我々は1つのブランチにおけるセマンティックセグメンテーションと将来のフレーム予測タスクを組み合わせて、オブジェクトクラスと一貫した動作パターンを学習する。
第2枝では、対象部位、動き方向、カメラからの物体の距離に注意を向けた動き異常を検出するためのいくつかの注意機構を付加した。
論文 参考訳(メタデータ) (2022-10-14T10:40:20Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。
埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。
まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文 参考訳(メタデータ) (2022-05-22T06:54:33Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Object-Aware Multi-Branch Relation Networks for Spatio-Temporal Video
Grounding [90.12181414070496]
本稿では,オブジェクト認識関係探索のための新しいオブジェクト認識型マルチブランチ関係ネットワークを提案する。
次に,主枝と補助枝の間の重要な対象関係を捉えるためのマルチブランチ推論を提案する。
論文 参考訳(メタデータ) (2020-08-16T15:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。