論文の概要: Relevance-based Margin for Contrastively-trained Video Retrieval Models
- arxiv url: http://arxiv.org/abs/2204.13001v1
- Date: Wed, 27 Apr 2022 15:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:15:05.202052
- Title: Relevance-based Margin for Contrastively-trained Video Retrieval Models
- Title(参考訳): コントラスト学習ビデオ検索モデルにおける関連性に基づくマージン
- Authors: Alex Falcon and Swathikiran Sudhakaran and Giuseppe Serra and Sergio
Escalera and Oswald Lanz
- Abstract要約: 自然言語クエリを用いたビデオ検索は、実世界のアプリケーションに関連があるため、関心が高まりつつある。
我々は、あるクエリにどれだけ関連があるかに基づいて、トレーニング中に使用するマージンを変えることで、nDCGとmAPで測定されたランキングの質が容易に向上すると主張している。
- 参考スコア(独自算出の注目度): 40.074282981680845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video retrieval using natural language queries has attracted increasing
interest due to its relevance in real-world applications, from intelligent
access in private media galleries to web-scale video search. Learning the
cross-similarity of video and text in a joint embedding space is the dominant
approach. To do so, a contrastive loss is usually employed because it organizes
the embedding space by putting similar items close and dissimilar items far.
This framework leads to competitive recall rates, as they solely focus on the
rank of the groundtruth items. Yet, assessing the quality of the ranking list
is of utmost importance when considering intelligent retrieval systems, since
multiple items may share similar semantics, hence a high relevance. Moreover,
the aforementioned framework uses a fixed margin to separate similar and
dissimilar items, treating all non-groundtruth items as equally irrelevant. In
this paper we propose to use a variable margin: we argue that varying the
margin used during training based on how much relevant an item is to a given
query, i.e. a relevance-based margin, easily improves the quality of the
ranking lists measured through nDCG and mAP. We demonstrate the advantages of
our technique using different models on EPIC-Kitchens-100 and YouCook2. We show
that even if we carefully tuned the fixed margin, our technique (which does not
have the margin as a hyper-parameter) would still achieve better performance.
Finally, extensive ablation studies and qualitative analysis support the
robustness of our approach. Code will be released at
\url{https://github.com/aranciokov/RelevanceMargin-ICMR22}.
- Abstract(参考訳): 自然言語クエリを用いたビデオ検索は、プライベートメディアギャラリーのインテリジェントアクセスからwebスケールのビデオ検索まで、現実のアプリケーションとの関連性から注目を集めている。
ビデオとテキストの相似性を共同埋め込み空間で学ぶことが主流のアプローチである。
そのため、類似品を近く、類似品を遠くに並べて埋め込み空間を整理するので、対比的損失が用いられることが多い。
この枠組みは、基本的項目のランクのみに焦点を当てているため、競争上のリコール率につながる。
しかし、複数の項目が類似のセマンティクスを共有するため、インテリジェントな検索システムを考える際には、ランキングの質を評価することが最も重要である。
さらに、上記のフレームワークは固定マージンを使用して類似アイテムと異種アイテムを分離し、すべての非基底アイテムを等しく無関係として扱う。
本稿では,ある項目が与えられたクエリにどの程度関連があるか,すなわち関連性に基づくマージンが,nDCG と mAP によって測定されたランキングリストの質を,学習中に使用するマージンの変化により容易に向上させる,という変数マージンを提案する。
EPIC-Kitchens-100とYouCook2で異なるモデルを用いた手法の利点を示す。
固定マージンを慎重に調整したとしても、私たちのテクニック(ハイパーパラメータとしてマージンを持っていない)は、よりよいパフォーマンスを達成できます。
最後に、広範囲にわたるアブレーション研究と定性的分析は、我々のアプローチの堅牢性を支持する。
コードは \url{https://github.com/aranciokov/RelevanceMargin-ICMR22} でリリースされる。
関連論文リスト
- HCMRM: A High-Consistency Multimodal Relevance Model for Search Ads [10.61722566941537]
本稿では,広告システムにおけるランク付けの有効性を高めるために,クエリ・ツー・ビデオの関連性マッチングの改善に焦点をあてる。
これは、トレーニング前タスクと関連タスクの整合性を高めるために、シンプルだが効果的な方法を利用している。
提案手法はクアイシュ州検索広告システムに1年以上展開され、無関係広告の割合が6.1%減少し、広告収入が1.4%増加した。
論文 参考訳(メタデータ) (2025-02-09T09:07:11Z) - Image Retrieval Methods in the Dissimilarity Space [10.00342846297521]
特徴相似性空間は類似性マッチングにより適していると主張する。
また、プロジェクトクエリと参照埋め込みに対する二分変換を、異種空間への単一の埋め込みに提案する。
クエリと参照埋め込みの距離を比較するのとは対照的に、単一異種空間の埋め込みを分類する利点を示す。
論文 参考訳(メタデータ) (2024-12-11T18:39:32Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Margin Calibration for Long-Tailed Visual Recognition [14.991077564590128]
マージンとロジットの関係(分類スコア)を調査し,バイアスマージンとバイアスロージットの相関を実証的に観察した。
MARCは、偏りのないロジットに対して、偏りのあるマージンを動的に校正する、単純で効果的なMARgin関数である。
論文 参考訳(メタデータ) (2021-12-14T08:25:29Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Improving Calibration in Deep Metric Learning With Cross-Example Softmax [11.014197662964335]
我々は,トップ$kとしきい値の関係性を組み合わせたクロスサンプルソフトマックスを提案する。
各イテレーションにおいて、提案された損失は、すべてのクエリがすべての非マッチングイメージよりも、すべてのクエリが一致するイメージに近づくことを奨励する。
これにより、世界規模で校正された類似度メートル法が導き出され、距離は関連性の絶対測度としてより解釈可能である。
論文 参考訳(メタデータ) (2020-11-17T18:47:28Z) - Controlling Fairness and Bias in Dynamic Learning-to-Rank [31.41843594914603]
暗黙のフィードバックデータからランキング関数を学習しながら、グループフェアネスの概念を確実にする学習アルゴリズムを提案する。
このアルゴリズムは、公平さと実用性の両方のために、偏見のない推定器を統合するコントローラの形をとっている。
厳密な理論基盤と収束保証に加えて、アルゴリズムが極めて実用的で堅牢であることが実証的に明らかになった。
論文 参考訳(メタデータ) (2020-05-29T17:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。