論文の概要: Learn to Understand Negation in Video Retrieval
- arxiv url: http://arxiv.org/abs/2205.00132v1
- Date: Sat, 30 Apr 2022 02:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 16:05:44.391901
- Title: Learn to Understand Negation in Video Retrieval
- Title(参考訳): ビデオ検索における否定の理解
- Authors: Ziyue Wang, Aozhu Chen, Fan Hu and Xirong Li
- Abstract要約: 否定は、人間が望まないことを表現できる共通の言語スキルである。
ディープラーニングに基づくビデオ検索モデルは典型的には、否定的な記述を持たないビデオ記述データセットに基づいて訓練される。
ビデオ検索における否定を理解するための学習に関する最初の研究について述べる。
- 参考スコア(独自算出の注目度): 9.929121517850204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Negation is a common linguistic skill that allows human to express what we do
NOT want. Naturally, one might expect video retrieval to support
natural-language queries with negation, e.g., finding shots of kids sitting on
the floor and not playing with the dog. However, the state-of-the-art deep
learning based video retrieval models lack such ability, as they are typically
trained on video description datasets such as MSR-VTT and VATEX that lack
negated descriptions. Their retrieved results basically ignore the negator in
the sample query, incorrectly returning videos showing kids playing with the
dog. In this paper, we present the first study on learning to understand
negation in video retrieval and make contributions as follows. First, by
re-purposing two existing datasets, i.e. MSR-VTT and VATEX, we propose a new
evaluation protocol for testing video retrieval with negation. Second, we
propose a learning based method for training a negation-aware video retrieval
model. The key idea is to first construct a soft negative caption for a
specific training video by partially negating its original caption, and then
compute a bidirectionally constrained loss on the triplet. This auxiliary loss
is then weightedly added to a standard retrieval loss. Experiments on the
re-purposed benchmarks show that re-training the CLIP (Contrastive
Language-Image Pre-Training) model by the proposed method clearly improves its
ability to handle queries with negation. In addition, its performance on the
original benchmarks is also improved. Data and source code will be released.
- Abstract(参考訳): 否定(negation)は、人間が望まないことを表現できる共通の言語スキルである。
当然、ビデオ検索は、例えば床に座って犬と遊んでいない子供のショットを見つけるなど、否定を伴う自然言語クエリをサポートするだろう。
しかし、最先端のディープラーニングに基づくビデオ検索モデルは、通常、否定的な記述を持たないMSR-VTTやVATEXのようなビデオ記述データセットで訓練されるため、そのような能力に欠ける。
検索結果は基本的に、サンプルクエリのネゲーターを無視し、犬と遊ぶ子供たちのビデオを誤って返します。
本稿では,映像検索における否定を理解するための学習に関する最初の研究を行い,次のような貢献を行う。
まず、MSR-VTTとVATEXの2つの既存のデータセットを再取得することにより、否定を伴うビデオ検索をテストするための新しい評価プロトコルを提案する。
第2に,否定認識ビデオ検索モデルを学習ベースで学習する手法を提案する。
鍵となるアイデアは、まず特定のトレーニングビデオのソフトな否定的なキャプションを構築し、元のキャプションを部分的に否定し、それから三重項の双方向に制約された損失を計算することである。
そして、この補助損失を標準検索損失に重み付けする。
提案手法によるCLIP(Contrastive Language- Image Pre-Training)モデルの再学習により,否定によるクエリ処理能力が向上した。
さらに、オリジナルのベンチマークのパフォーマンスも改善されている。
データとソースコードがリリースされます。
関連論文リスト
- Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models [6.073813559982129]
ビデオ検索は、テキストキャプションまたはリバーサが与えられたビデオデータベースから、地上の真実のビデオを取得することを含む。
我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と構文的理解を評価する。
ビデオ理解におけるオブジェクトや属性と比較して,アクションや構文が軽微な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-28T20:06:36Z) - Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video
Retrieval Benchmarks [6.540440003084223]
ビデオキャプションデータセットは、モデルを評価するために再利用されている。
多くの代替ビデオもキャプションと一致し、偽陰性なキャプションとビデオのペアが導入された。
これらの誤りを正すと、最近の最先端モデルでは25%のリコールポイントが得られることを示す。
論文 参考訳(メタデータ) (2022-10-10T22:45:06Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Boosting Video Captioning with Dynamic Loss Network [0.0]
本稿では,動的損失ネットワーク(DLN)の導入による欠点に対処する。
Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSRVTT) のデータセットは,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-25T01:32:02Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Learning to Discretely Compose Reasoning Module Networks for Video
Captioning [81.81394228898591]
ビデオキャプションのための新しい視覚的推論手法であるReasoning Module Networks (RMN)を提案する。
RMNには3つの高度なRM時間的推論と,Gumbel近似を用いた言語的損失によって訓練された動的かつ離散的なモジュールセレクタが採用されている。
論文 参考訳(メタデータ) (2020-07-17T15:27:37Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。