論文の概要: Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos
- arxiv url: http://arxiv.org/abs/2103.12346v1
- Date: Tue, 23 Mar 2021 06:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:53:53.286530
- Title: Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos
- Title(参考訳): 映像における表現理解に意味的注意を向けた共同グラウンドネットワーク
- Authors: Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo and Shih-Fu Chang
- Abstract要約: エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
- 参考スコア(独自算出の注目度): 96.85840365678649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of referring expression comprehension
in videos, which is challenging due to complex expression and scene dynamics.
Unlike previous methods which solve the problem in multiple stages (i.e.,
tracking, proposal-based matching), we tackle the problem from a novel
perspective, \textbf{co-grounding}, with an elegant one-stage framework. We
enhance the single-frame grounding accuracy by semantic attention learning and
improve the cross-frame grounding consistency with co-grounding feature
learning. Semantic attention learning explicitly parses referring cues in
different attributes to reduce the ambiguity in the complex expression.
Co-grounding feature learning boosts visual feature representations by
integrating temporal correlation to reduce the ambiguity caused by scene
dynamics. Experiment results demonstrate the superiority of our framework on
the video grounding datasets VID and LiOTB in generating accurate and stable
results across frames. Our model is also applicable to referring expression
comprehension in images, illustrated by the improved performance on the RefCOCO
dataset. Our project is available at https://sijiesong.github.io/co-grounding.
- Abstract(参考訳): 本稿では,複雑な表現やシーンのダイナミクスのため,ビデオにおける表現理解の参照の問題に対処する。
複数の段階(すなわち追跡、提案に基づくマッチング)でこの問題を解決する従来の方法とは異なり、私たちは新しい視点から、エレガントな一段階フレームワークである \textbf{co-grounding} という問題に取り組む。
本稿では,意味的注意学習による単一フレーム接地精度の向上と,共同接地機能学習によるクロスフレーム接地一貫性の向上を図る。
意味的注意学習は、異なる属性で参照する手がかりを明示的に解析し、複雑な表現の曖昧さを減少させる。
コグラウンド機能学習は、時間的相関を統合して視覚的特徴表現を高め、シーンダイナミクスによるあいまいさを低減する。
実験結果から,ビデオグラウンドデータセットのVIDとLiOTBにおいて,フレーム間の正確かつ安定した結果を生成する上で,我々のフレームワークが優れていることを示す。
また、RefCOCOデータセットの性能向上により、画像中の表現理解を参照することも可能である。
私たちのプロジェクトはhttps://sijiesong.github.io/コグラウンドで利用可能です。
関連論文リスト
- Cross-modal Contrastive Learning with Asymmetric Co-attention Network
for Video Moment Retrieval [0.17590081165362778]
ビデオモーメント検索は、ビデオとテキストの微妙な相互作用を必要とする課題である。
画像テキスト事前学習における最近の研究により、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることが示されている。
我々は、空間情報と時間情報の両方を保存するのに補助的な必要性のあるビデオテキスト領域にも、同様の問題が存在しているかどうかを疑問視する。
論文 参考訳(メタデータ) (2023-12-12T17:00:46Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Image Captioning with Visual Object Representations Grounded in the
Textual Modality [14.797241131469486]
テキストと視覚のモダリティ間の共有埋め込み空間の可能性を探る。
本稿では,キャプションシステムの単語埋め込み空間における表現を基礎として,現在の傾向とは逆のアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-19T12:21:38Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。