論文の概要: Relevance-based Margin for Contrastively-trained Video Retrieval Models
- arxiv url: http://arxiv.org/abs/2204.13001v1
- Date: Wed, 27 Apr 2022 15:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:15:05.202052
- Title: Relevance-based Margin for Contrastively-trained Video Retrieval Models
- Title(参考訳): コントラスト学習ビデオ検索モデルにおける関連性に基づくマージン
- Authors: Alex Falcon and Swathikiran Sudhakaran and Giuseppe Serra and Sergio
Escalera and Oswald Lanz
- Abstract要約: 自然言語クエリを用いたビデオ検索は、実世界のアプリケーションに関連があるため、関心が高まりつつある。
我々は、あるクエリにどれだけ関連があるかに基づいて、トレーニング中に使用するマージンを変えることで、nDCGとmAPで測定されたランキングの質が容易に向上すると主張している。
- 参考スコア(独自算出の注目度): 40.074282981680845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video retrieval using natural language queries has attracted increasing
interest due to its relevance in real-world applications, from intelligent
access in private media galleries to web-scale video search. Learning the
cross-similarity of video and text in a joint embedding space is the dominant
approach. To do so, a contrastive loss is usually employed because it organizes
the embedding space by putting similar items close and dissimilar items far.
This framework leads to competitive recall rates, as they solely focus on the
rank of the groundtruth items. Yet, assessing the quality of the ranking list
is of utmost importance when considering intelligent retrieval systems, since
multiple items may share similar semantics, hence a high relevance. Moreover,
the aforementioned framework uses a fixed margin to separate similar and
dissimilar items, treating all non-groundtruth items as equally irrelevant. In
this paper we propose to use a variable margin: we argue that varying the
margin used during training based on how much relevant an item is to a given
query, i.e. a relevance-based margin, easily improves the quality of the
ranking lists measured through nDCG and mAP. We demonstrate the advantages of
our technique using different models on EPIC-Kitchens-100 and YouCook2. We show
that even if we carefully tuned the fixed margin, our technique (which does not
have the margin as a hyper-parameter) would still achieve better performance.
Finally, extensive ablation studies and qualitative analysis support the
robustness of our approach. Code will be released at
\url{https://github.com/aranciokov/RelevanceMargin-ICMR22}.
- Abstract(参考訳): 自然言語クエリを用いたビデオ検索は、プライベートメディアギャラリーのインテリジェントアクセスからwebスケールのビデオ検索まで、現実のアプリケーションとの関連性から注目を集めている。
ビデオとテキストの相似性を共同埋め込み空間で学ぶことが主流のアプローチである。
そのため、類似品を近く、類似品を遠くに並べて埋め込み空間を整理するので、対比的損失が用いられることが多い。
この枠組みは、基本的項目のランクのみに焦点を当てているため、競争上のリコール率につながる。
しかし、複数の項目が類似のセマンティクスを共有するため、インテリジェントな検索システムを考える際には、ランキングの質を評価することが最も重要である。
さらに、上記のフレームワークは固定マージンを使用して類似アイテムと異種アイテムを分離し、すべての非基底アイテムを等しく無関係として扱う。
本稿では,ある項目が与えられたクエリにどの程度関連があるか,すなわち関連性に基づくマージンが,nDCG と mAP によって測定されたランキングリストの質を,学習中に使用するマージンの変化により容易に向上させる,という変数マージンを提案する。
EPIC-Kitchens-100とYouCook2で異なるモデルを用いた手法の利点を示す。
固定マージンを慎重に調整したとしても、私たちのテクニック(ハイパーパラメータとしてマージンを持っていない)は、よりよいパフォーマンスを達成できます。
最後に、広範囲にわたるアブレーション研究と定性的分析は、我々のアプローチの堅牢性を支持する。
コードは \url{https://github.com/aranciokov/RelevanceMargin-ICMR22} でリリースされる。
関連論文リスト
- Relevance Filtering for Embedding-based Retrieval [46.851594313019895]
埋め込み型検索では、ANN(Approximate Nearest Neighbor)検索により、大規模データセットから類似したアイテムを効率的に検索することができる。
本稿では,この課題に対処するために,埋め込み型検索のための新しい関連フィルタリングコンポーネント("Cosine Adapter" と呼ぶ)を提案する。
少ないリコールの損失を犠牲にして、回収したセットの精度を大幅に向上することが可能です。
論文 参考訳(メタデータ) (2024-08-09T06:21:20Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Margin Calibration for Long-Tailed Visual Recognition [14.991077564590128]
マージンとロジットの関係(分類スコア)を調査し,バイアスマージンとバイアスロージットの相関を実証的に観察した。
MARCは、偏りのないロジットに対して、偏りのあるマージンを動的に校正する、単純で効果的なMARgin関数である。
論文 参考訳(メタデータ) (2021-12-14T08:25:29Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Societal Biases in Retrieved Contents: Measurement Framework and
Adversarial Mitigation for BERT Rankers [9.811131801693856]
ランキングモデルの検索したテキスト内容の公平性を測定するための新しいフレームワークを提供する。
本稿では,最先端のbertrankersに適用した逆バイアス緩和手法を提案する。
MARCOベンチマークの結果,全てのランキングモデルの公正度は,ランク付け非依存のベースラインの公平度よりも低いが,検索内容の公平度は,提案した対角トレーニングの適用時に著しく向上することが示された。
論文 参考訳(メタデータ) (2021-04-28T08:53:54Z) - Improving Calibration in Deep Metric Learning With Cross-Example Softmax [11.014197662964335]
我々は,トップ$kとしきい値の関係性を組み合わせたクロスサンプルソフトマックスを提案する。
各イテレーションにおいて、提案された損失は、すべてのクエリがすべての非マッチングイメージよりも、すべてのクエリが一致するイメージに近づくことを奨励する。
これにより、世界規模で校正された類似度メートル法が導き出され、距離は関連性の絶対測度としてより解釈可能である。
論文 参考訳(メタデータ) (2020-11-17T18:47:28Z) - Controlling Fairness and Bias in Dynamic Learning-to-Rank [31.41843594914603]
暗黙のフィードバックデータからランキング関数を学習しながら、グループフェアネスの概念を確実にする学習アルゴリズムを提案する。
このアルゴリズムは、公平さと実用性の両方のために、偏見のない推定器を統合するコントローラの形をとっている。
厳密な理論基盤と収束保証に加えて、アルゴリズムが極めて実用的で堅牢であることが実証的に明らかになった。
論文 参考訳(メタデータ) (2020-05-29T17:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。