論文の概要: Sinkhorn Transformations for Single-Query Postprocessing in Text-Video
Retrieval
- arxiv url: http://arxiv.org/abs/2311.08143v1
- Date: Tue, 14 Nov 2023 13:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:16:56.699838
- Title: Sinkhorn Transformations for Single-Query Postprocessing in Text-Video
Retrieval
- Title(参考訳): テキストビデオ検索における単一クエリ後処理のためのシンクホーン変換
- Authors: Konstantin Yakovlev, Gregory Polyakov, Ilseyar Alimova, Alexander
Podolskiy, Andrey Bout, Sergey Nikolenko, Irina Piontkovskaya
- Abstract要約: この研究は、Sinkhorn変換に基づく新しい後処理アプローチを導入し、DSLを上回ります。
提案手法は,CLIP4Clip,BLIP,X-CLIP,DRLなどのアートモデルの状態を有意に改善できることを示す。
- 参考スコア(独自算出の注目度): 48.05270637946454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent trend in multimodal retrieval is related to postprocessing test set
results via the dual-softmax loss (DSL). While this approach can bring
significant improvements, it usually presumes that an entire matrix of test
samples is available as DSL input. This work introduces a new postprocessing
approach based on Sinkhorn transformations that outperforms DSL. Further, we
propose a new postprocessing setting that does not require access to multiple
test queries. We show that our approach can significantly improve the results
of state of the art models such as CLIP4Clip, BLIP, X-CLIP, and DRL, thus
achieving a new state-of-the-art on several standard text-video retrieval
datasets both with access to the entire test set and in the single-query
setting.
- Abstract(参考訳): マルチモーダル検索の最近のトレンドは、dual-softmax loss (dsl) による後処理テストセットの結果に関連している。
このアプローチは大幅な改善をもたらすが、通常、テストサンプルのマトリックス全体がDSL入力として利用できると仮定する。
本稿では、dslに勝るシンクホーン変換に基づく新しいポストプロセッシングアプローチを紹介します。
さらに、複数のテストクエリへのアクセスを必要としない新しい後処理設定を提案する。
提案手法は,CLIP4Clip,BLIP,X-CLIP,DRLなどの技術モデルの現状を著しく改善し,テストセット全体と単一クエリ設定の両方で,標準的なテキストビデオ検索データセットの新たな最先端化を実現する。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - Multi-query Video Retrieval [44.32936301162444]
本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。
本稿では,複数のクエリの類似性出力を単純に組み合わせることで,複数のクエリをトレーニング時に活用する新しい手法を提案する。
我々は、さらなるモデリング努力により、この方向性に新たな洞察をもたらし、現実世界のビデオ検索アプリケーションでより良いパフォーマンスを発揮する新しいシステムを創り出すと信じている。
論文 参考訳(メタデータ) (2022-01-10T20:44:46Z) - Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual
Softmax Loss [19.09368856300847]
本稿では,CAMoE (Single Gate Mixture-of-Experts) と新しいDual Softmax Loss (DSL) を用いたマルチストリームコーパスアライメントネットワークを提案する。
提案したCAMoEとDSLは高い効率性を有し,それぞれがMSR-VTT, MSVD, LSMDC などのベンチマークで個別に State-of-The-Art (SOTA) を達成することができる。
論文 参考訳(メタデータ) (2021-09-09T14:10:43Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Multi-level Head-wise Match and Aggregation in Transformer for Textual
Sequence Matching [87.97265483696613]
そこで本研究では,複数のレベルにおける頭部のマッチング表現を学習することで,Transformerとのシーケンスペアマッチングを新たに提案する。
実験の結果,提案手法は複数のタスクにおいて新しい最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-01-20T20:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。