論文の概要: Symmetric Multi-Similarity Loss for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2024
- arxiv url: http://arxiv.org/abs/2406.12256v1
- Date: Tue, 18 Jun 2024 04:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 22:49:04.294673
- Title: Symmetric Multi-Similarity Loss for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2024
- Title(参考訳): EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2024
- Authors: Xiaoqi Wang, Yi Wang, Lap-Pui Chau,
- Abstract要約: CVPR 2024におけるEPIC-KITCHENS-100 Multi-Instance Retrieval Challengeのチャンピオンソリューションを提案する。
この課題は、相関行列を提供することによって、従来のビジュアルテキスト検索タスクとは異なる。
我々は,より正確な学習目標を提供する新しい損失関数,Symmetric Multi-Similarity Lossを提案する。
- 参考スコア(独自算出の注目度): 17.622013322533423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our champion solution for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge in CVPR 2024. Essentially, this challenge differs from traditional visual-text retrieval tasks by providing a correlation matrix that acts as a set of soft labels for video-text clip combinations. However, existing loss functions have not fully exploited this information. Motivated by this, we propose a novel loss function, Symmetric Multi-Similarity Loss, which offers a more precise learning objective. Together with tricks and ensemble learning, the model achieves 63.76% average mAP and 74.25% average nDCG on the public leaderboard, demonstrating the effectiveness of our approach. Our code will be released at: https://github.com/xqwang14/SMS-Loss/tree/main
- Abstract(参考訳): 本稿では,EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge in CVPR 2024について紹介する。
基本的に、この課題は、ビデオテキストクリップの組み合わせのためのソフトラベルのセットとして機能する相関行列を提供することによって、従来のビジュアルテキスト検索タスクとは異なる。
しかし、既存の損失関数はこの情報を十分に活用していない。
そこで我々は,より正確な学習目標を提供する新しい損失関数,Symmetric Multi-Similarity Lossを提案する。
トリックとアンサンブル学習とともに、このモデルは一般のリーダーボード上で平均mAP63.76%、平均nDCG74.25%を達成し、我々のアプローチの有効性を実証した。
私たちのコードは、https://github.com/xqwang14/SMS-Loss/tree/mainでリリースされます。
関連論文リスト
- CUCL: Codebook for Unsupervised Continual Learning [129.91731617718781]
本研究は,教師なし連続学習(UCL)の代替として,教師なし連続学習(UCL)に焦点を当てている。
本稿では,教師なし連続学習のためのCodebook for Unsupervised Continual Learning (CUCL) という手法を提案する。
本手法は教師なしおよび教師なしの手法の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-25T03:08:50Z) - Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic
Reasoning Task 2023 [13.326745559876558]
本稿では,マルチモーダルなアルゴリズム推論タスクSMART-101 Challengeを提案する。
この課題は、視覚言語パズルの解法におけるニューラルネットワークの抽象化、推論、一般化能力を評価する。
パズル分割構成では、検証セットで26.5、プライベートテストセットで24.30の精度スコアを得た。
論文 参考訳(メタデータ) (2023-10-10T09:12:27Z) - Lightweight Boosting Models for User Response Prediction Using
Adversarial Validation [2.4040470282119983]
ShareChatが主催するACM RecSys Challenge 2023は、アプリがインストールされる確率を予測することを目的としている。
本稿では,この課題に対する軽量な解決策について述べる。
論文 参考訳(メタデータ) (2023-10-05T13:57:05Z) - 1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic
Segmentation Track [67.56316745239629]
本報告では,ECCV 2022におけるロバストビジョンチャレンジのセマンティックセグメンテーション課題に対する勝利解について述べる。
本手法では,エンコーダとしてFAN-B-Hybridモデルを採用し,セグメンテーションフレームワークとしてSegformerを使用している。
提案手法は,マルチドメインセグメンテーションタスクの強力なベースラインとして機能し,今後の作業に役立てることができる。
論文 参考訳(メタデータ) (2022-10-23T20:52:22Z) - Exploiting Semantic Role Contextualized Video Features for
Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [72.12974259966592]
EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022について述べる。
まず、文を動詞や名詞に対応する意味的役割にパースし、自己意図を利用して意味的役割の文脈化されたビデオ特徴を利用する。
論文 参考訳(メタデータ) (2022-06-29T03:24:43Z) - SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval [15.522964295287425]
未知のクラスを自己ラベル化した新たな損失関数を提案する。
我々は,テキストベースビデオ検索,スケッチベース画像検索,画像テキスト検索など,実世界のクロスモーダル検索問題に対するアプローチを検証した。
論文 参考訳(メタデータ) (2021-11-10T17:17:09Z) - MAGNeto: An Efficient Deep Learning Method for the Extractive Tags
Summarization Problem [0.0]
抽出タグ要約(ETS)と呼ばれる新しい画像アノテーションタスクについて検討する。
ゴールは、画像とその対応するタグに横たわるコンテキストから重要なタグを抽出することである。
提案手法は,畳み込み層や自己注意層など,広く使用されているブロックで構成されている。
論文 参考訳(メタデータ) (2020-11-09T11:34:21Z) - Tracklets Predicting Based Adaptive Graph Tracking [51.352829280902114]
マルチオブジェクト追跡,すなわち textbfTPAGT のための,正確かつエンドツーエンドの学習フレームワークを提案する。
動作予測に基づいて、現在のフレーム内のトラックレットの特徴を再抽出する。
論文 参考訳(メタデータ) (2020-10-18T16:16:49Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - Triplet Online Instance Matching Loss for Person Re-identification [14.233828198522266]
本稿では, ハードサンプルに重きを置くトリプルトオンラインインスタンスマッチング(TOIM)損失関数を提案し, 人物ReIDの精度を効果的に向上する。
OIM損失とトリプルト損失の利点を組み合わせ、バッチ構築のプロセスを簡単にする。
共同検出および識別タスクを処理する場合、オンラインでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-24T21:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。