論文の概要: TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2104.08271v1
- Date: Fri, 16 Apr 2021 17:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 15:43:59.159928
- Title: TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval
- Title(参考訳): TEACHTEXT:テキスト検索のためのクロスモーダル一般化蒸留
- Authors: Ioana Croitoru, Simion-Vlad Bogolin, Yang Liu, Samuel Albanie, Marius
Leordeanu, Hailin Jin, Andrew Zisserman
- Abstract要約: 本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
- 参考スコア(独自算出の注目度): 103.85002875155551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, considerable progress on the task of text-video retrieval
has been achieved by leveraging large-scale pretraining on visual and audio
datasets to construct powerful video encoders. By contrast, despite the natural
symmetry, the design of effective algorithms for exploiting large-scale
language pretraining remains under-explored. In this work, we are the first to
investigate the design of such algorithms and propose a novel generalized
distillation method, TeachText, which leverages complementary cues from
multiple text encoders to provide an enhanced supervisory signal to the
retrieval model. Moreover, we extend our method to video side modalities and
show that we can effectively reduce the number of used modalities at test time
without compromising performance. Our approach advances the state of the art on
several video retrieval benchmarks by a significant margin and adds no
computational overhead at test time. Last but not least, we show an effective
application of our method for eliminating noise from retrieval datasets. Code
and data can be found at https://www.robots.ox.ac.uk/~vgg/research/teachtext/.
- Abstract(参考訳): 近年,映像および音声データセットの大規模事前学習を活用し,強力な映像エンコーダを構築することで,テキスト・ビデオ検索の課題が大幅に進展している。
対照的に、自然対称性にもかかわらず、大規模言語の事前学習を利用する効果的なアルゴリズムの設計は未検討のままである。
本稿では,このようなアルゴリズムの設計を最初に検討し,複数のテキストエンコーダからの補完的手がかりを活用し,検索モデルに強化された監督信号を与える,新しい一般化蒸留法である teachtext を提案する。
また,本手法をビデオ側モダリティに拡張し,性能を損なうことなく,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
最後に,検索データセットからノイズを除去する手法の効果的な適用例を示す。
コードとデータはhttps://www.robots.ox.ac.uk/~vgg/research/teachtext/にある。
関連論文リスト
- DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching [77.0306273129475]
ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
GoMatchingは、ICDAR15ビデオ、DSText、BOVTextに新しいレコードを提供し、ArTVideoと呼ばれる任意の形のテキストを用いた新しいテストを提案しました。
論文 参考訳(メタデータ) (2024-01-13T13:59:15Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval [16.548016892117083]
近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T14:05:20Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文 参考訳(メタデータ) (2021-04-29T19:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。