論文の概要: Social Fabric: Tubelet Compositions for Video Relation Detection
- arxiv url: http://arxiv.org/abs/2108.08363v1
- Date: Wed, 18 Aug 2021 19:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:34:45.057596
- Title: Social Fabric: Tubelet Compositions for Video Relation Detection
- Title(参考訳): ソーシャルファブリック:ビデオ関係検出のためのチューブレット構成
- Authors: Shuo Chen, Zenglin Shi, Pascal Mettes, Cees G. M. Snoek
- Abstract要約: 本稿では,映像中の対象管と対象管の関係を主観的述語・対象物三重項として分類し,検出する。
また、一対のオブジェクトチューブを相互作用プリミティブの合成として表現するエンコーディングであるSocial Fabricを提案する。
- 参考スコア(独自算出の注目度): 45.56370555125151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper strives to classify and detect the relationship between object
tubelets appearing within a video as a <subject-predicate-object> triplet.
Where existing works treat object proposals or tubelets as single entities and
model their relations a posteriori, we propose to classify and detect
predicates for pairs of object tubelets a priori. We also propose Social
Fabric: an encoding that represents a pair of object tubelets as a composition
of interaction primitives. These primitives are learned over all relations,
resulting in a compact representation able to localize and classify relations
from the pool of co-occurring object tubelets across all timespans in a video.
The encoding enables our two-stage network. In the first stage, we train Social
Fabric to suggest proposals that are likely interacting. We use the Social
Fabric in the second stage to simultaneously fine-tune and predict predicate
labels for the tubelets. Experiments demonstrate the benefit of early video
relation modeling, our encoding and the two-stage architecture, leading to a
new state-of-the-art on two benchmarks. We also show how the encoding enables
query-by-primitive-example to search for spatio-temporal video relations. Code:
https://github.com/shanshuo/Social-Fabric.
- Abstract(参考訳): 本稿では,ビデオ内に現れるオブジェクトチューブレット間の関係を<subject-predicate-object>三重項として分類し,検出する。
既存の研究は、オブジェクトの提案やチューブレットを単一のエンティティとして扱い、それらの関係を後続としてモデル化する。
また,インタラクションプリミティブの合成として,オブジェクトのチューブレット対を表す符号化手法であるsocial fabricを提案する。
これらのプリミティブはすべての関係を通じて学習され、ビデオ内のすべてのタイムパンにわたって共起するオブジェクトの塊のプールから関係をローカライズし、分類することができるコンパクトな表現となる。
エンコーディングは2段階のネットワークを可能にする。
第1段階では、対話性のある提案を提案するために、ソーシャルファブリックをトレーニングします。
第2段階ではSocial Fabricを使用して,チューブレットの微調整と述語ラベルの予測を行う。
実験は、初期のビデオ関係モデリング、エンコーディング、および2段階アーキテクチャの利点を実証し、2つのベンチマークで新たな最先端性をもたらす。
また,このエンコーディングにより,時空間ビデオ関係の検索が可能となることを示す。
コード:https://github.com/shanshuo/Social-Fabric.com
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - ReVersion: Diffusion-Based Relation Inversion from Images [31.61407278439991]
ReVersion for the Relation Inversion task, which aimed to learn a specific relationship from exemplar image。
我々は、凍結した事前学習されたテキスト-画像拡散モデルから関係のプロンプトを学習する。
学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
論文 参考訳(メタデータ) (2023-03-23T17:56:10Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - What and When to Look?: Temporal Span Proposal Network for Video Visual
Relation Detection [4.726777092009554]
Video Visual Relation Detection (VidD): セグメントベース、ウィンドウベース。
まず,2つの手法が持つ限界を指摘し,効率性と有効性という2つの利点を持つ新しい手法であるテンポラル・スパン・プロポーザル・ネットワーク(TSPN)を提案する。
論文 参考訳(メタデータ) (2021-07-15T07:01:26Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z) - Relational Message Passing for Knowledge Graph Completion [78.47976646383222]
本稿では,知識グラフ補完のためのリレーショナルメッセージパッシング手法を提案する。
エッジ間でリレーショナルメッセージを反復的に送信し、近隣情報を集約する。
その結果,本手法は最先端の知識完成手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-17T03:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。