論文の概要: Visual Relation Grounding in Videos
- arxiv url: http://arxiv.org/abs/2007.08814v2
- Date: Tue, 21 Jul 2020 07:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 14:06:56.201332
- Title: Visual Relation Grounding in Videos
- Title(参考訳): 映像における視覚関係の接地
- Authors: Junbin Xiao, Xindi Shang, Xun Yang, Sheng Tang, Tat-Seng Chua
- Abstract要約: 映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
- 参考スコア(独自算出の注目度): 86.06874453626347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore a novel task named visual Relation Grounding in
Videos (vRGV). The task aims at spatio-temporally localizing the given
relations in the form of subject-predicate-object in the videos, so as to
provide supportive visual facts for other high-level video-language tasks
(e.g., video-language grounding and video question answering). The challenges
in this task include but not limited to: (1) both the subject and object are
required to be spatio-temporally localized to ground a query relation; (2) the
temporal dynamic nature of visual relations in videos is difficult to capture;
and (3) the grounding should be achieved without any direct supervision in
space and time. To ground the relations, we tackle the challenges by
collaboratively optimizing two sequences of regions over a constructed
hierarchical spatio-temporal region graph through relation attending and
reconstruction, in which we further propose a message passing mechanism by
spatial attention shifting between visual entities. Experimental results
demonstrate that our model can not only outperform baseline approaches
significantly, but also produces visually meaningful facts to support visual
grounding. (Code is available at https://github.com/doc-doc/vRGV).
- Abstract(参考訳): 本稿では,映像における視覚的リレーショナルグラウンドディング(vRGV)という課題について検討する。
このタスクは、与えられた関係をビデオ内の主観的述語オブジェクトの形で時空間的ローカライズすることを目的としており、他の高レベルなビデオ言語タスク(例えば、ビデオ言語接地とビデオ質問応答)に対する支援的な視覚的事実を提供する。
課題は,(1)問合せ関係を接地するために,対象と対象の双方を時空間的に局所化する必要があること,(2)映像における視覚関係の時間的動的性質をキャプチャすることが困難であること,(3)空間と時間を直接監督することなく接地を行うことである。
そこで本研究では,構造化された階層的時空間グラフ上の2つの領域列を協調的に最適化し,関係の成立と再構成を行い,視覚的エンティティ間の空間的注意シフトによるメッセージパッシング機構を提案する。
実験の結果,本モデルはベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることがわかった。
(コードはhttps://github.com/doc-doc/vRGV)。
関連論文リスト
- Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文 参考訳(メタデータ) (2021-03-18T11:56:29Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。