論文の概要: Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank
- arxiv url: http://arxiv.org/abs/2404.06173v1
- Date: Tue, 9 Apr 2024 09:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:09:49.616679
- Title: Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank
- Title(参考訳): 生成キャプションとマルチワード概念バンクを用いたアドホック動画検索のための解釈可能な埋め込みの改善
- Authors: Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan,
- Abstract要約: 我々は,事前学習のための700万のテキストとビデオペアからなる新しいデータセットを構築した。
我々は,構文解析に基づく多語概念バンクを開発し,最先端の解釈可能なAVS法の能力を向上させる。
実験の結果,上記の要素の統合はAVS法のR@1性能を2倍にすることがわかった。
- 参考スコア(独自算出の注目度): 29.498206926481604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning a user query and video clips in cross-modal latent space and that with semantic concepts are two mainstream approaches for ad-hoc video search (AVS). However, the effectiveness of existing approaches is bottlenecked by the small sizes of available video-text datasets and the low quality of concept banks, which results in the failures of unseen queries and the out-of-vocabulary problem. This paper addresses these two problems by constructing a new dataset and developing a multi-word concept bank. Specifically, capitalizing on a generative model, we construct a new dataset consisting of 7 million generated text and video pairs for pre-training. To tackle the out-of-vocabulary problem, we develop a multi-word concept bank based on syntax analysis to enhance the capability of a state-of-the-art interpretable AVS method in modeling relationships between query words. We also study the impact of current advanced features on the method. Experimental results show that the integration of the above-proposed elements doubles the R@1 performance of the AVS method on the MSRVTT dataset and improves the xinfAP on the TRECVid AVS query sets for 2016-2023 (eight years) by a margin from 2% to 77%, with an average about 20%.
- Abstract(参考訳): ユーザクエリとビデオクリップをクロスモーダルなラテント空間で調整し,セマンティックな概念を取り入れることで,アドホックビデオ検索(AVS)の主流となるアプローチが2つある。
しかし、既存のアプローチの有効性は、利用可能なビデオテキストデータセットの小さなサイズとコンセプトバンクの低品質によってボトルネックとなり、見当たらないクエリの失敗や語彙外問題が発生する。
本稿では、新しいデータセットを構築し、マルチワードの概念バンクを開発することにより、これらの2つの問題を解決する。
具体的には、生成モデルに基づいて、700万件のテキストとビデオペアを事前学習用に構築する。
語彙外問題に対処するために,構文解析に基づく多語概念バンクを開発し,クエリ語間の関係をモデル化する最先端の解釈可能なAVS法の能力を向上させる。
また,現在の高度な特徴が手法に与える影響についても検討した。
以上の結果から,MSRVTTデータセット上でのAVSメソッドのR@1性能を2倍に向上し,2016-2023年(8年)のTRECVid AVSクエリセットのxinfAPを2%から77%改善し,平均20%向上した。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Interpretable Embedding for Ad-hoc Video Search [36.29531713757939]
本稿では,統合されたデュアルタスク学習のためのニューラルネットワークに,特徴埋め込みと概念解釈を統合する。
これは、埋め込み機能または概念を使用することで、TRECVidベンチマークデータセット上でかなりの検索改善が達成可能であることを実証的に示している。
論文 参考訳(メタデータ) (2024-02-19T03:59:32Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Leveraging Generative Language Models for Weakly Supervised Sentence
Component Analysis in Video-Language Joint Learning [10.486585276898472]
テキストデータの徹底的な理解は、マルチモーダルビデオ解析タスクの基本的な要素である。
目的タスクに応じて文成分の意義を理解することで,モデルの性能を高めることができると仮定する。
本稿では,コンポーネントの相対的重要性を計算し,映像言語タスクの改善に利用するために,弱教師付き重要度推定モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-10T02:03:51Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus [42.14174599341824]
Referring Video Object (R-VOS) は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
論文 参考訳(メタデータ) (2022-07-04T05:08:09Z) - Semantically Distributed Robust Optimization for Vision-and-Language
Inference [34.83271008148651]
分散ロバスト最適化設定における言語変換をモデルに依存しない手法である textbfSDRO を提案する。
画像とビデオによるベンチマークデータセットの実験では、パフォーマンスの改善に加えて、敵攻撃に対する堅牢性も示されている。
論文 参考訳(メタデータ) (2021-10-14T06:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。