論文の概要: MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2410.10589v1
- Date: Mon, 14 Oct 2024 15:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:45:18.292304
- Title: MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge Transfer
- Title(参考訳): MoTE: ビジュアル言語とビデオ知識伝達の専門化による一般化の再構築
- Authors: Minghao Zhu, Zhengpu Wang, Mengxian Hu, Ronghao Dang, Xiao Lin, Xun Zhou, Chengju Liu, Qijun Chen,
- Abstract要約: 一般化と特殊化を一つの統一モデルでバランスよく行える新しいフレームワークであるMoTEを提案する。
提案手法は,複数のタスクビューをさまざまなデータ適合度で学習するために,時間的専門家の混在をチューニングする。
我々は、ゼロショットとクローズセットのビデオ認識タスクの健全なバランスを達成し、様々なデータセットで最先端または競合的な結果を得る。
- 参考スコア(独自算出の注目度): 20.261021985218648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring visual-language knowledge from large-scale foundation models for video recognition has proved to be effective. To bridge the domain gap, additional parametric modules are added to capture the temporal information. However, zero-shot generalization diminishes with the increase in the number of specialized parameters, making existing works a trade-off between zero-shot and close-set performance. In this paper, we present MoTE, a novel framework that enables generalization and specialization to be balanced in one unified model. Our approach tunes a mixture of temporal experts to learn multiple task views with various degrees of data fitting. To maximally preserve the knowledge of each expert, we propose \emph{Weight Merging Regularization}, which regularizes the merging process of experts in weight space. Additionally with temporal feature modulation to regularize the contribution of temporal feature during test. We achieve a sound balance between zero-shot and close-set video recognition tasks and obtain state-of-the-art or competitive results on various datasets, including Kinetics-400 \& 600, UCF, and HMDB. Code is available at \url{https://github.com/ZMHH-H/MoTE}.
- Abstract(参考訳): 映像認識のための大規模基盤モデルから視覚言語知識を伝達することは有効であることが証明された。
ドメインギャップを埋めるために、時間情報を取得するためにパラメトリックモジュールが追加される。
しかし、ゼロショット一般化は特殊パラメータの数の増加とともに減少し、既存の作業はゼロショットとクローズセットのパフォーマンスのトレードオフとなる。
本稿では、一般化と特殊化を一つの統一モデルでバランスよく行える新しいフレームワークであるMoTEを提案する。
提案手法は,複数のタスクビューをさまざまなデータ適合度で学習するために,時間的専門家の混在をチューニングする。
各専門家の知識を最大限に保存するために、重み空間における専門家の合併過程を規則化する「emph{Weight Merging Regularization」を提案する。
さらに、時間的特徴変調により、テスト中の時間的特徴の寄与を規則化する。
我々は、ゼロショットとクローズセットのビデオ認識タスクの健全なバランスを達成し、Kinetics-400 \&600, UCF, HMDBなどの様々なデータセットで最先端または競合的な結果を得る。
コードは \url{https://github.com/ZMHH-H/MoTE} で入手できる。
関連論文リスト
- Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキストと視覚分岐における表現のアライメントを改善するため,MSTA(Multi-modal Spatio-supervised)を提案する。
提案手法の有効性は,ゼロショット転送,少数ショット学習,ベース・ツー・ヴァリアント,完全言語学習の4つの課題にまたがる。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks [26.007846170517055]
本研究では、時間的ビデオ理解タスクの出力を離散トークンのシーケンスとして定式化するために、Temporal2Seqと呼ばれる単一の統合フレームワークを提案する。
この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。
我々はTemporal2Seqジェネリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-27T06:37:47Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - iKUN: Speak to Trackers without Retraining [21.555469501789577]
市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。
局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。
また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
論文 参考訳(メタデータ) (2023-12-25T11:48:55Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。