論文の概要: Improving Video Retrieval by Adaptive Margin
- arxiv url: http://arxiv.org/abs/2303.05093v1
- Date: Thu, 9 Mar 2023 08:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 15:45:11.920089
- Title: Improving Video Retrieval by Adaptive Margin
- Title(参考訳): Adaptive Marginによるビデオ検索の改善
- Authors: Feng He, Qi Wang, Zhifan Feng, Wenbin Jiang, Yajuan Lv, Yong zhu, Xiao
Tan
- Abstract要約: ビデオ検索の主流パラダイムは、正の対と負の対の類似性の間の距離を固定辺から切り離すことで、ビデオテキスト表現を学習する。
トレーニングに使用される負のペアはランダムにサンプリングされ、負のペア間のセマンティクスが関連あるいは等価であることを示している。
本稿では、上記の問題を解決するために、正対と負対の距離で変化した適応マージンを提案する。
- 参考スコア(独自算出の注目度): 18.326296132847332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video retrieval is becoming increasingly important owing to the rapid
emergence of videos on the Internet. The dominant paradigm for video retrieval
learns video-text representations by pushing the distance between the
similarity of positive pairs and that of negative pairs apart from a fixed
margin. However, negative pairs used for training are sampled randomly, which
indicates that the semantics between negative pairs may be related or even
equivalent, while most methods still enforce dissimilar representations to
decrease their similarity. This phenomenon leads to inaccurate supervision and
poor performance in learning video-text representations.
While most video retrieval methods overlook that phenomenon, we propose an
adaptive margin changed with the distance between positive and negative pairs
to solve the aforementioned issue. First, we design the calculation framework
of the adaptive margin, including the method of distance measurement and the
function between the distance and the margin. Then, we explore a novel
implementation called "Cross-Modal Generalized Self-Distillation" (CMGSD),
which can be built on the top of most video retrieval models with few
modifications. Notably, CMGSD adds few computational overheads at train time
and adds no computational overhead at test time. Experimental results on three
widely used datasets demonstrate that the proposed method can yield
significantly better performance than the corresponding backbone model, and it
outperforms state-of-the-art methods by a large margin.
- Abstract(参考訳): インターネット上のビデオの急速な出現により、ビデオ検索はますます重要になりつつある。
ビデオ検索の主流パラダイムは、正の対と負の対の類似性の間の距離を固定辺から切り離すことで、ビデオテキスト表現を学習する。
しかし、トレーニングに使用される負のペアはランダムにサンプリングされ、これは負のペア間のセマンティクスが関連あるいは等価であることを示しているが、ほとんどのメソッドは相似表現を強制して類似性を減少させる。
この現象は、ビデオテキスト表現の学習における不正確な監督と性能の低下につながる。
多くのビデオ検索手法ではその現象を見落としているが,上記の問題を解くために,正対と負対の距離によって適応マージンが変化する。
まず,距離計測法や距離とマージン間の関数を含む適応マージンの計算フレームワークを設計する。
そこで我々は,ほとんどのビデオ検索モデルの上部にほとんど変更を加えることなく構築可能なCMGSD(Cross-Modal Generalized Self-Distillation)という新しい実装を提案する。
特に、CMGSDは、列車時に計算オーバーヘッドを少なくし、テスト時に計算オーバーヘッドを追加しない。
広範に使用されている3つのデータセットの実験結果から,提案手法は対応するバックボーンモデルよりも大幅に性能が向上し,最先端の手法よりも大きなマージンで性能が向上することが示された。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Multiple Instance-Based Video Anomaly Detection using Deep Temporal
Encoding-Decoding [5.255783459833821]
本稿では,監視ビデオにおける異常検出のための時間的深部符号化復号化手法を提案する。
提案手法はトレーニング期間中に異常ビデオクリップと正常ビデオクリップの両方を使用する。
提案手法は,ビデオ監視アプリケーションにおける異常検出の最先端ソリューションと同等かそれ以上に動作することを示す。
論文 参考訳(メタデータ) (2020-07-03T08:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。