論文の概要: Correspondence Matters for Video Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2207.10400v1
- Date: Thu, 21 Jul 2022 10:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:07:02.098089
- Title: Correspondence Matters for Video Referring Expression Comprehension
- Title(参考訳): ビデオ参照表現理解のための対応事項
- Authors: Meng Cao, Ji Jiang, Long Chen, Yuexian Zou
- Abstract要約: ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
- 参考スコア(独自算出の注目度): 64.60046797561455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of video Referring Expression Comprehension (REC),
which aims to localize the referent objects described in the sentence to visual
regions in the video frames. Despite the recent progress, existing methods
suffer from two problems: 1) inconsistent localization results across video
frames; 2) confusion between the referent and contextual objects. To this end,
we propose a novel Dual Correspondence Network (dubbed as DCNet) which
explicitly enhances the dense associations in both the inter-frame and
cross-modal manners. Firstly, we aim to build the inter-frame correlations for
all existing instances within the frames. Specifically, we compute the
inter-frame patch-wise cosine similarity to estimate the dense alignment and
then perform the inter-frame contrastive learning to map them close in feature
space. Secondly, we propose to build the fine-grained patch-word alignment to
associate each patch with certain words. Due to the lack of this kind of
detailed annotations, we also predict the patch-word correspondence through the
cosine similarity. Extensive experiments demonstrate that our DCNet achieves
state-of-the-art performance on both video and image REC benchmarks.
Furthermore, we conduct comprehensive ablation studies and thorough analyses to
explore the optimal model designs. Notably, our inter-frame and cross-modal
contrastive losses are plug-and-play functions and are applicable to any video
REC architectures. For example, by building on top of Co-grounding, we boost
the performance by 1.48% absolute improvement on Accu.@0.5 for VID-Sentence
dataset.
- Abstract(参考訳): 本稿では,ビデオフレーム内の視覚領域に記述された参照対象をローカライズすることを目的としたビデオ参照表現理解(REC)の問題について検討する。
最近の進歩にもかかわらず、既存の方法には2つの問題がある。
1) ビデオフレーム間の一貫性のないローカライズ結果
2)参照元と文脈オブジェクトの混同。
この目的のために、フレーム間およびクロスモーダルの両方の密接な関連性を明確に拡張する新しいデュアル対応ネットワーク(DCNet)を提案する。
まず、フレーム内のすべての既存インスタンスに対するフレーム間相関を構築することを目的とする。
具体的には,フレーム間パッチ間コサイン類似度を計算して密集したアライメントを推定し,フレーム間コントラスト学習を行い,それらを特徴空間に近接させる。
次に、各パッチと特定の単語を関連付けるために、きめ細かいパッチワードアライメントを構築することを提案する。
このような詳細なアノテーションが欠如しているため、コサイン類似性を通じてパッチワード対応を予測できる。
我々のDCNetはビデオと画像のRECベンチマークの両方で最先端のパフォーマンスを実現している。
さらに, モデル設計の最適設計を検討するため, 包括的アブレーション研究を行い, 徹底的な解析を行った。
特に、フレーム間およびクロスモーダルのコントラスト損失はプラグアンドプレイ機能であり、任意のビデオRECアーキテクチャに適用できる。
例えば、コグラウンド上に構築することで、accuのパフォーマンスを1.48%向上させることができます。
VID-Sentenceデータセットの@0.5。
関連論文リスト
- Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z) - HunYuan_tvr for Text-Video Retrivial [23.650824732136158]
HunYuan_tvrはビデオ文、クリップフレーズ、フレームワード関係を同時に探索することで階層的相互モーダル相互作用を探索する。
HunYuan_tvr は、それぞれ MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet の Rank@1 of 55.0%, 57.8%, 29.7%, 52.1%, 57.3% といった様々なベンチマークで、新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-07T11:59:36Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - Exploiting Visual Semantic Reasoning for Video-Text Retrieval [14.466809435818984]
フレーム領域間の推論を利用するビジュアルセマンティック拡張推論ネットワーク(ViSERN)を提案する。
ランダムウォークルールに基づくグラフ畳み込みネットワークによる推論を行い、意味的関係に関わる領域の特徴を生成する。
推論の利点により、領域間の意味的相互作用が考慮され、冗長性の影響が抑制される。
論文 参考訳(メタデータ) (2020-06-16T02:56:46Z) - Near-duplicate video detection featuring coupled temporal and perceptual
visual structures and logical inference based matching [0.0]
i) 時間的・知覚的な視覚的特徴を統合したインデックスとクエリシグネチャに基づく,ほぼ重複した映像検出のためのアーキテクチャを提案する。
そこで本研究では,N-gramスライディングウインドウプロセスと理論的に健全な格子構造を結合することで,論理的推論に基づく検索モデルをインスタンス化する手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T04:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。