論文の概要: Video Referring Expression Comprehension via Transformer with
Content-aware Query
- arxiv url: http://arxiv.org/abs/2210.02953v1
- Date: Thu, 6 Oct 2022 14:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:52:50.242546
- Title: Video Referring Expression Comprehension via Transformer with
Content-aware Query
- Title(参考訳): Content-Aware Query を用いた Transformer によるビデオ参照表現の理解
- Authors: Ji Jiang, Meng Cao, Tengtao Song, Yuexian Zou
- Abstract要約: ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
- 参考スコア(独自算出の注目度): 60.89442448993627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Referring Expression Comprehension (REC) aims to localize a target
object in video frames referred by the natural language expression. Recently,
the Transformerbased methods have greatly boosted the performance limit.
However, we argue that the current query design is suboptima and suffers from
two drawbacks: 1) the slow training convergence process; 2) the lack of
fine-grained alignment. To alleviate this, we aim to couple the pure learnable
queries with the content information. Specifically, we set up a fixed number of
learnable bounding boxes across the frame and the aligned region features are
employed to provide fruitful clues. Besides, we explicitly link certain phrases
in the sentence to the semantically relevant visual areas. To this end, we
introduce two new datasets (i.e., VID-Entity and VidSTG-Entity) by augmenting
the VIDSentence and VidSTG datasets with the explicitly referred words in the
whole sentence, respectively. Benefiting from this, we conduct the fine-grained
cross-modal alignment at the region-phrase level, which ensures more detailed
feature representations. Incorporating these two designs, our proposed model
(dubbed as ContFormer) achieves the state-of-the-art performance on widely
benchmarked datasets. For example on VID-Entity dataset, compared to the
previous SOTA, ContFormer achieves 8.75% absolute improvement on Accu.@0.6.
- Abstract(参考訳): video reference expression comprehension(rec)は、自然言語表現で参照されるビデオフレームに対象オブジェクトをローカライズすることを目的としている。
近年、トランスフォーマー方式は性能の限界を大きく高めている。
しかし、現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
1) 遅い訓練収束過程
2)微粒なアライメントの欠如。
これを軽減するために、純粋に学習可能なクエリとコンテンツ情報との結合を目指す。
具体的には,フレーム全体の学習可能なバウンディングボックスを一定数設定し,アラインされた領域特徴を用いて実りある手掛かりを提供する。
さらに,文中の特定のフレーズを意味的に関連する視覚領域に明示的にリンクする。
この目的のために、VID-Entity と VidSTG-Entity という2つの新しいデータセットを導入し、VDSentence と VidSTG のデータセットを文全体に明示的に参照された単語で拡張する。
この利点を生かして,より詳細な特徴表現を保証する領域・フレーズレベルで細粒度のクロスモーダルアライメントを行う。
これら2つの設計を組み込んだモデル(ContFormer)は、広くベンチマークされたデータセット上での最先端のパフォーマンスを実現する。
例えば、VID-Entityデータセットでは、以前のSOTAと比較して、ContFormerはAccuの8.75%の絶対的な改善を実現している。
@0.6.
関連論文リスト
- Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video
Moment Retrieval [31.42856682276394]
Video Moment Retrieval (VMR) は、与えられた言語クエリに対応する未トリミングビデオの時間セグメントを検索することを目的としている。
既存の戦略は、モダリティの不均衡問題を無視するため、しばしば準最適である。
我々は、よりバランスの取れたアライメントのための新しいフレームワークである、Modal-Enhanced Semantic Modeling (MESM)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T13:38:48Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。