論文の概要: Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval
- arxiv url: http://arxiv.org/abs/2407.15566v1
- Date: Mon, 22 Jul 2024 11:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:11:26.813101
- Title: Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval
- Title(参考訳): すべてのペアが平等であるとは限らない: 平均精度指向ビデオ検索のための階層的学習
- Authors: Yang Liu, Qianqian Xu, Peisong Wen, Siran Dai, Qingming Huang,
- Abstract要約: 平均精度(AP)は、関連ビデオのランキングを上位リストで評価する。
最近のビデオ検索手法は、全てのサンプル対を等しく扱うペアワイズ損失を利用する。
- 参考スコア(独自算出の注目度): 80.09819072780193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of online video resources has significantly promoted the development of video retrieval methods. As a standard evaluation metric for video retrieval, Average Precision (AP) assesses the overall rankings of relevant videos at the top list, making the predicted scores a reliable reference for users. However, recent video retrieval methods utilize pair-wise losses that treat all sample pairs equally, leading to an evident gap between the training objective and evaluation metric. To effectively bridge this gap, in this work, we aim to address two primary challenges: a) The current similarity measure and AP-based loss are suboptimal for video retrieval; b) The noticeable noise from frame-to-frame matching introduces ambiguity in estimating the AP loss. In response to these challenges, we propose the Hierarchical learning framework for Average-Precision-oriented Video Retrieval (HAP-VR). For the former challenge, we develop the TopK-Chamfer Similarity and QuadLinear-AP loss to measure and optimize video-level similarities in terms of AP. For the latter challenge, we suggest constraining the frame-level similarities to achieve an accurate AP loss estimation. Experimental results present that HAP-VR outperforms existing methods on several benchmark datasets, providing a feasible solution for video retrieval tasks and thus offering potential benefits for the multi-media application.
- Abstract(参考訳): オンラインビデオリソースの急速な成長は、ビデオ検索手法の開発を著しく促進している。
ビデオ検索の標準的な評価基準として、平均精度(AP)は、関連ビデオのランキングを上位リストで評価し、予測スコアがユーザにとって信頼できる基準となる。
しかし、最近のビデオ検索手法では、全てのサンプル対を等しく扱うペアワイズ損失を利用しており、トレーニング目標と評価基準との間に明らかなギャップが生じる。
このギャップを効果的に埋めるために、我々は2つの主要な課題に対処することを目指している。
a) 現在の類似度とAPに基づく損失は,ビデオ検索に最適である。
b) フレーム間マッチングによる顕著なノイズは,AP損失の推定における曖昧さをもたらす。
これらの課題に対応するために、平均精度指向ビデオ検索(HAP-VR)のための階層的学習フレームワークを提案する。
従来の課題では、APの観点でビデオレベルの類似度を測定し最適化するために、TopK-Chamfer similarityとQuadLinear-AP損失を開発した。
後者の課題は、正確なAP損失推定を実現するためにフレームレベルの類似性を制約することである。
実験結果から,HAP-VRは複数のベンチマークデータセット上で既存の手法よりも優れており,ビデオ検索タスクに実現可能なソリューションを提供し,マルチメディアアプリケーションに潜在的なメリットをもたらすことが示唆された。
関連論文リスト
- A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Revisiting AP Loss for Dense Object Detection: Adaptive Ranking Pair
Selection [19.940491797959407]
本研究では, 平均精度 (AP) の損失を再考し, その重要な要素は, 正試料と負試料のランキングペアを選択することであることを明らかにした。
本稿では,AP損失を改善するための2つの方法を提案する。第1に,APE(Adaptive Pairwise Error)損失は,正と負の両方のサンプルにおいて,ペアのランク付けに重点を置いている。
MSCOCOデータセットで行った実験は、現在の分類とランキングの損失と比較して、提案手法の優位性を実証し、分析を支援した。
論文 参考訳(メタデータ) (2022-07-25T10:33:06Z) - Robust and Decomposable Average Precision for Image Retrieval [0.0]
画像検索において、標準的な評価基準はスコアランキング(例えば平均精度(AP))に依存している。
本稿では,ロバストで分解可能な平均精度(ROADMAP)を提案する。
我々は、APを用いたディープニューラルネットワークのエンドツーエンドトレーニングにおいて、非微分可能性と非分解性という2つの大きな課題に対処する。
論文 参考訳(メタデータ) (2021-10-01T12:00:43Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。