Fugu-MT 論文翻訳(概要): Zero-shot Video Moment Retrieval With Off-the-Shelf Models

論文の概要: Zero-shot Video Moment Retrieval With Off-the-Shelf Models

arxiv url: http://arxiv.org/abs/2211.02178v1
Date: Thu, 3 Nov 2022 23:11:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 16:02:02.260180
Title: Zero-shot Video Moment Retrieval With Off-the-Shelf Models
Title（参考訳）: オフザシェルフモデルを用いたゼロショット動画モーメント検索
Authors: Anuj Diwan, Puyuan Peng, Raymond J. Mooney
Abstract要約: そのようなタスクであるビデオモーメント検索(VMR)に対してゼロショット単純アプローチを提案する。これまでのゼロショットアプローチでは,すべてのメトリクスにおいて,少なくとも2.5倍の性能向上を実現しています。また、我々のゼロショットアプローチは、Recallメトリクスの非事前制限された教師付きモデルに勝り、mAPメトリクスに非常に近いことを示しています。
参考スコア（独自算出の注目度）: 17.254884920876695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For the majority of the machine learning community, the expensive nature of collecting high-quality human-annotated data and the inability to efficiently finetune very large state-of-the-art pretrained models on limited compute are major bottlenecks for building models for new tasks. We propose a zero-shot simple approach for one such task, Video Moment Retrieval (VMR), that does not perform any additional finetuning and simply repurposes off-the-shelf models trained on other tasks. Our three-step approach consists of moment proposal, moment-query matching and postprocessing, all using only off-the-shelf models. On the QVHighlights benchmark for VMR, we vastly improve performance of previous zero-shot approaches by at least 2.5x on all metrics and reduce the gap between zero-shot and state-of-the-art supervised by over 74%. Further, we also show that our zero-shot approach beats non-pretrained supervised models on the Recall metrics and comes very close on mAP metrics; and that it also performs better than the best pretrained supervised model on shorter moments. Finally, we ablate and analyze our results and propose interesting future directions.
Abstract（参考訳）: 機械学習コミュニティの大多数にとって、高品質な人間の注釈データを集めるための高価な性質と、限られた計算量で非常に大きな最先端の事前学習されたモデルを効率的に微調整できないことは、新しいタスクのためのモデルを構築するための大きなボトルネックである。このようなタスクに対してゼロショットの単純なアプローチであるビデオモーメント検索(VMR)を提案し、追加の微調整を行わず、他のタスクで訓練された既製のモデルを簡単に再利用する。 3段階のアプローチは、モーメントの提案、モーメントクエリマッチング、ポストプロセッシングで構成されています。 VMRのQVHighlightsベンチマークでは、すべてのメトリクスにおいて、過去のゼロショットアプローチのパフォーマンスを少なくとも2.5倍改善し、ゼロショットと最先端の教師によるギャップを74%以上削減しました。さらに、我々のゼロショットアプローチは、Recallメトリクスの非事前訓練された教師付きモデルに勝り、mAPメトリクスに非常に近いことを示し、短い時間で最高の事前訓練された教師付きモデルよりも優れたパフォーマンスを示す。最後に,結果の要約と分析を行い,今後の興味深い方向性を提案する。

関連論文リスト

Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-28T14:14:19Z)
Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。 VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文参考訳（メタデータ） (2025-03-12T15:48:13Z)
LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging [10.33844295243509]
基本モデルであるtextscLoRE-Merging へのアクセスを必要とせず,タスクベクトルの低ランク推定に基づくモデルマージのための統一フレームワークを提案する。我々のアプローチは、細調整されたモデルからのタスクベクトルは、しばしば支配的な特異値の限られた数しか示さず、低ランク推定が干渉しにくくなるという観察に動機づけられている。
論文参考訳（メタデータ） (2025-02-15T10:18:46Z)
Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T16:25:50Z)
Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。 7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文参考訳（メタデータ） (2024-08-21T09:08:26Z)
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文参考訳（メタデータ） (2024-04-04T17:58:02Z)
Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文参考訳（メタデータ） (2024-01-09T04:33:03Z)
Zero-Shot Robustification of Zero-Shot Models [13.143596481809508]
完全ゼロショット方式で事前学習したモデル埋め込みのロバスト性を改善する手法であるRoboShotを提案する。まず、タスク記述から有用な洞察を得るために言語モデル(LM)を用いる。これらの洞察は組み込まれ、有害なコンポーネントを取り除くために使われます。
論文参考訳（メタデータ） (2023-09-08T14:15:47Z)
Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-06-12T15:52:02Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
AttentionLite: Towards Efficient Self-Attention Models for Vision [9.957033392865982]
本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。計算量の多い教師から知識を同時蒸留でき、同時に学生モデルを1回の訓練パスで刈り取ることができる。
論文参考訳（メタデータ） (2020-12-21T17:54:09Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。