論文の概要: Zero-shot Video Moment Retrieval With Off-the-Shelf Models
- arxiv url: http://arxiv.org/abs/2211.02178v1
- Date: Thu, 3 Nov 2022 23:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:02:02.260180
- Title: Zero-shot Video Moment Retrieval With Off-the-Shelf Models
- Title(参考訳): オフザシェルフモデルを用いたゼロショット動画モーメント検索
- Authors: Anuj Diwan, Puyuan Peng, Raymond J. Mooney
- Abstract要約: そのようなタスクであるビデオモーメント検索(VMR)に対してゼロショット単純アプローチを提案する。
これまでのゼロショットアプローチでは,すべてのメトリクスにおいて,少なくとも2.5倍の性能向上を実現しています。
また、我々のゼロショットアプローチは、Recallメトリクスの非事前制限された教師付きモデルに勝り、mAPメトリクスに非常に近いことを示しています。
- 参考スコア(独自算出の注目度): 17.254884920876695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For the majority of the machine learning community, the expensive nature of
collecting high-quality human-annotated data and the inability to efficiently
finetune very large state-of-the-art pretrained models on limited compute are
major bottlenecks for building models for new tasks. We propose a zero-shot
simple approach for one such task, Video Moment Retrieval (VMR), that does not
perform any additional finetuning and simply repurposes off-the-shelf models
trained on other tasks. Our three-step approach consists of moment proposal,
moment-query matching and postprocessing, all using only off-the-shelf models.
On the QVHighlights benchmark for VMR, we vastly improve performance of
previous zero-shot approaches by at least 2.5x on all metrics and reduce the
gap between zero-shot and state-of-the-art supervised by over 74%. Further, we
also show that our zero-shot approach beats non-pretrained supervised models on
the Recall metrics and comes very close on mAP metrics; and that it also
performs better than the best pretrained supervised model on shorter moments.
Finally, we ablate and analyze our results and propose interesting future
directions.
- Abstract(参考訳): 機械学習コミュニティの大多数にとって、高品質な人間の注釈データを集めるための高価な性質と、限られた計算量で非常に大きな最先端の事前学習されたモデルを効率的に微調整できないことは、新しいタスクのためのモデルを構築するための大きなボトルネックである。
このようなタスクに対してゼロショットの単純なアプローチであるビデオモーメント検索(VMR)を提案し、追加の微調整を行わず、他のタスクで訓練された既製のモデルを簡単に再利用する。
3段階のアプローチは、モーメントの提案、モーメントクエリマッチング、ポストプロセッシングで構成されています。
VMRのQVHighlightsベンチマークでは、すべてのメトリクスにおいて、過去のゼロショットアプローチのパフォーマンスを少なくとも2.5倍改善し、ゼロショットと最先端の教師によるギャップを74%以上削減しました。
さらに、我々のゼロショットアプローチは、Recallメトリクスの非事前訓練された教師付きモデルに勝り、mAPメトリクスに非常に近いことを示し、短い時間で最高の事前訓練された教師付きモデルよりも優れたパフォーマンスを示す。
最後に,結果の要約と分析を行い,今後の興味深い方向性を提案する。
関連論文リスト
- Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial
Robustness [57.843395705105614]
我々は, モデルがゼロショットの対角強靭性を高めるために, 事前訓練されたモデル誘導適応調整(PMG-AFT)を提案する。
PMG-AFTは最先端の手法よりも優れており、トップ1の精度は平均4.99%向上した。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - End-to-End Temporal Action Detection with 1B Parameters Across 1000
Frames [60.88096113158131]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。
メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。
本稿では,エンド・ツー・エンドのトレーニングにおけるメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文 参考訳(メタデータ) (2023-11-28T21:31:04Z) - Zero-Shot Robustification of Zero-Shot Models [13.143596481809508]
完全ゼロショット方式で事前学習したモデル埋め込みのロバスト性を改善する手法であるRoboShotを提案する。
まず、タスク記述から有用な洞察を得るために言語モデル(LM)を用いる。
これらの洞察は組み込まれ、有害なコンポーネントを取り除くために使われます。
論文 参考訳(メタデータ) (2023-09-08T14:15:47Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - AttentionLite: Towards Efficient Self-Attention Models for Vision [9.957033392865982]
本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。
計算量の多い教師から知識を同時蒸留でき、同時に学生モデルを1回の訓練パスで刈り取ることができる。
論文 参考訳(メタデータ) (2020-12-21T17:54:09Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。