論文の概要: Video Referring Expression Comprehension via Transformer with
Content-conditioned Query
- arxiv url: http://arxiv.org/abs/2310.16402v1
- Date: Wed, 25 Oct 2023 06:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:17:35.560198
- Title: Video Referring Expression Comprehension via Transformer with
Content-conditioned Query
- Title(参考訳): コンテントコンディショニングクエリを用いたトランスフォーマによるビデオ参照表現理解
- Authors: Ji Jiang, Meng Cao, Tengtao Song, Long Chen, Yi Wang, Yuexian Zou
- Abstract要約: ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
- 参考スコア(独自算出の注目度): 68.06199031102526
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video Referring Expression Comprehension (REC) aims to localize a target
object in videos based on the queried natural language. Recent improvements in
video REC have been made using Transformer-based methods with learnable
queries. However, we contend that this naive query design is not ideal given
the open-world nature of video REC brought by text supervision. With numerous
potential semantic categories, relying on only a few slow-updated queries is
insufficient to characterize them. Our solution to this problem is to create
dynamic queries that are conditioned on both the input video and language to
model the diverse objects referred to. Specifically, we place a fixed number of
learnable bounding boxes throughout the frame and use corresponding region
features to provide prior information. Also, we noticed that current query
features overlook the importance of cross-modal alignment. To address this, we
align specific phrases in the sentence with semantically relevant visual areas,
annotating them in existing video datasets (VID-Sentence and VidSTG). By
incorporating these two designs, our proposed model (called ConFormer)
outperforms other models on widely benchmarked datasets. For example, in the
testing split of VID-Sentence dataset, ConFormer achieves 8.75% absolute
improvement on Accu.@0.6 compared to the previous state-of-the-art model.
- Abstract(参考訳): Video Referring Expression Comprehension (REC) は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
最近のビデオrecの改善は、学習可能なクエリを持つトランスフォーマティブベースの手法で行われている。
しかし,テキスト管理によってもたらされるビデオRECのオープンな性質を考えると,この単純クエリ設計は理想的ではない。
多くの潜在的なセマンティクスカテゴリにおいて、いくつかの遅い更新クエリのみに依存することは、それらを特徴付けるのに不十分である。
この問題の解決策は、入力ビデオと言語の両方で条件付き動的クエリを作成し、参照される多様なオブジェクトをモデル化することである。
具体的には、フレーム全体に一定の数の学習可能なバウンディングボックスを配置し、それに対応する領域特徴を用いて事前情報を提供する。
また、現在のクエリ機能は、クロスモーダルアライメントの重要性を見逃していることに気づきました。
これを解決するために、文中の特定のフレーズを意味的に関連する視覚領域にアノテートし、既存のビデオデータセット(VID-Sentence と VidSTG)にアノテートする。
これら2つの設計を取り入れることで、提案したモデル(ConFormerと呼ばれる)は、広くベンチマークされたデータセット上で他のモデルよりも優れている。
例えば、VID-Sentenceデータセットのテスト分割では、ConFormerはAccuの8.75%の絶対的な改善を実現している。
以前の最先端モデルと比較すると、@0.6。
関連論文リスト
- Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection [8.74967598360817]
MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
論文 参考訳(メタデータ) (2023-03-24T09:32:50Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。
対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-12-01T17:06:39Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。