論文の概要: VidPrism: Heterogeneous Mixture of Experts for Image-to-Video Transfer
- arxiv url: http://arxiv.org/abs/2605.28229v1
- Date: Wed, 27 May 2026 09:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.945083
- Title: VidPrism: Heterogeneous Mixture of Experts for Image-to-Video Transfer
- Title(参考訳): VidPrism:画像とビデオの転送の専門家の不均一な混合
- Authors: Rui Lin, Chuanming Wang, Huadong Ma,
- Abstract要約: 本稿では,新しい異種時間混合フレームワークであるVidPrismを提案する。
VidPrismは専門の専門家を配置することで、空間的理解から時間的モデリングまで幅広い役割を担っている。
様々なビデオ認識ベンチマークの実験は、VidPrismが最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 45.546958131063775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of pre-training technologies, adapting large-scale Vision-Language Models (VLMs) for video understanding \emph{\ie} image-to-video transfer learning has become a dominant paradigm. To achieve superior performance, it raises as an effective strategy among recent advances to employ Mixture-of-Experts (MoE) to enhance VLMs' temporal modeling capabilities. However, conventional MoE designs suffer from expert homogenization, where all experts act as identical generalists, inefficiently learning spatio-temporal features from undifferentiated video streams. To overcome this problem, we propose VidPrism, a novel heterogeneous temporal Mixture-of-Experts framework. VidPrism pioneers a division of labor by deploying functionally specialized experts, each assuming a role ranging from spatial understanding to temporal modeling. To feed these specialists appropriately, we introduce a content-aware, multi-rate sampling module that dynamically generates streams ranging from semantically rich to motion-focused representations, providing specialized inputs for experts. Furthermore, a dynamic, bidirectional fusion mechanism enables synergistic information exchange between these pathways, leading to a comprehensive video representation. Extensive experiments on various video recognition benchmarks demonstrate that VidPrism achieves state-of-the-art performance and effectively fosters expert specialization. Our source code is available at \href{https://github.com/Lrrrr549/VidPrism.git}{https://github.com/Lrrrr549/VidPrism.git}.
- Abstract(参考訳): 事前学習技術の急速な発展に伴い,映像理解のための大規模視覚言語モデル(VLM)が主流となっている。
優れた性能を達成するため、近年の進歩の中で、Mixture-of-Experts (MoE) を用いてVLMの時間的モデリング能力を向上する効果的な戦略として挙げられている。
しかし、従来のMoE設計は、すべての専門家が同一のジェネラリストとして振る舞う専門家の均質化に悩まされ、未分化のビデオストリームから時空間の特徴を非効率に学習する。
この問題を解決するために,新しい異種時間混合フレームワークであるVidPrismを提案する。
VidPrismは、機能的に専門的な専門家を配置し、空間的理解から時間的モデリングまでの役割を想定することで、労働部門を開拓した。
これらの専門家に適切なフィードを提供するために、意味的にリッチな表現から動きを重視した表現までのストリームを動的に生成し、専門家に特別なインプットを提供する、コンテンツ対応マルチレートサンプリングモジュールを導入する。
さらに、動的双方向融合機構により、これらの経路間の相乗的情報交換が可能となり、包括的な映像表現が実現される。
様々なビデオ認識ベンチマークによる大規模な実験により、VidPrismは最先端のパフォーマンスを達成し、専門家の専門化を効果的に促進することを示した。
我々のソースコードは \href{https://github.com/Lrrrr549/VidPrism.git}{https://github.com/Lrrrr549/VidPrism.git} で入手できる。
関連論文リスト
- Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Enhancing Self-supervised Video Representation Learning via Multi-level
Feature Optimization [30.670109727802494]
本稿では,学習ビデオ表現の一般化と時間的モデリング能力を改善するための多段階特徴最適化フレームワークを提案する。
実験により,グラフ制約と時間的モデリングによるマルチレベル特徴最適化は,映像理解における表現能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-08-04T17:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。