論文の概要: What and When to Look?: Temporal Span Proposal Network for Video Visual
Relation Detection
- arxiv url: http://arxiv.org/abs/2107.07154v1
- Date: Thu, 15 Jul 2021 07:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-17 01:17:16.116974
- Title: What and When to Look?: Temporal Span Proposal Network for Video Visual
Relation Detection
- Title(参考訳): 何といつ見るべきか?
映像視覚関連検出のための時間スパン提案ネットワーク
- Authors: Sangmin Woo, Junhyug Noh, Kangil Kim
- Abstract要約: Video Visual Relation Detection (VidD): セグメントベース、ウィンドウベース。
まず,2つの手法が持つ限界を指摘し,効率性と有効性という2つの利点を持つ新しい手法であるテンポラル・スパン・プロポーザル・ネットワーク(TSPN)を提案する。
- 参考スコア(独自算出の注目度): 4.726777092009554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying relations between objects is central to understanding the scene.
While several works have been proposed for relation modeling in the image
domain, there have been many constraints in the video domain due to challenging
dynamics of spatio-temporal interactions (e.g., Between which objects are there
an interaction? When do relations occur and end?). To date, two representative
methods have been proposed to tackle Video Visual Relation Detection (VidVRD):
segment-based and window-based. We first point out the limitations these two
methods have and propose Temporal Span Proposal Network (TSPN), a novel method
with two advantages in terms of efficiency and effectiveness. 1) TSPN tells
what to look: it sparsifies relation search space by scoring relationness
(i.e., confidence score for the existence of a relation between pair of
objects) of object pair. 2) TSPN tells when to look: it leverages the full
video context to simultaneously predict the temporal span and categories of the
entire relations. TSPN demonstrates its effectiveness by achieving new
state-of-the-art by a significant margin on two VidVRD benchmarks
(ImageNet-VidVDR and VidOR) while also showing lower time complexity than
existing methods - in particular, twice as efficient as a popular segment-based
approach.
- Abstract(参考訳): オブジェクト間の関係を識別することは、シーンを理解する上で重要である。
画像領域における関係モデリングのためのいくつかの研究が提案されているが、時空間相互作用(例えば、どのオブジェクトが相互作用しているか)のダイナミックスに困難があるため、ビデオ領域には多くの制約があった。
関係はいつ、いつ終わるのか?
これまで、ビデオ視覚関係検出(vidvrd)に取り組むために、セグメントベースとウィンドウベースという2つの代表的な方法が提案されてきた。
まず,これら2つの手法が持つ限界を指摘し,効率と有効性の観点から2つの利点を持つ新しい手法であるtemporal span proposal network (tspn)を提案する。
1)TSPNは、オブジェクト対の関係性(すなわち、オブジェクト対の関係性の存在に対する信頼スコア)を評価することによって、関係探索空間を分散させる。
2) TSPNは、ビデオのコンテキスト全体を利用して、時間的スパンと関係全体のカテゴリを同時に予測する。
tspnは、2つのvidvrdベンチマーク(imagenet-vidvdrとvidor)でかなりのマージンで新しい最先端を達成することでその効果を実証すると同時に、既存のメソッドよりも時間の複雑さを低下させる。
関連論文リスト
- Multi-Pair Temporal Sentence Grounding via Multi-Thread Knowledge Transfer Network [57.72095897427665]
時間文グラウンドディング(TSG)は、ビデオ中のクエリ関連セグメントを見つけることを目的としている。
従来のメソッドは、異なるペアを一緒にトレーニングできないシングルスレッドフレームワークに従っていた。
我々はこれらのペアを協調訓練することを目的としたMulti-Pair TSGを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:50:11Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。