Fugu-MT 論文翻訳(概要): Towards Data-Efficient Video Pre-training with Frozen Image Foundation Models

論文の概要: Towards Data-Efficient Video Pre-training with Frozen Image Foundation Models

arxiv url: http://arxiv.org/abs/2605.19137v1
Date: Mon, 18 May 2026 21:35:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.002819
Title: Towards Data-Efficient Video Pre-training with Frozen Image Foundation Models
Title（参考訳）: 凍結画像基礎モデルによるデータ効率の良いビデオ事前学習に向けて
Authors: Svetlana Orlova, Niccolò Cavagnero, Gijs Dubbelman,
Abstract要約: ビデオファウンデーションモデルは、多くのビデオ理解タスクで強力なパフォーマンスを達成する。通常、大規模なビデオデータセットで大規模な事前トレーニングが必要になる。現代の画像基盤モデルは、すでに強力な空間表現を提供している。
参考スコア（独自算出の注目度）: 11.90100510168662
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video foundation models achieve strong performance across many video understanding tasks, but typically require large-scale pre-training on massive video datasets, resulting in substantial data and compute costs. In contrast, modern image foundation models already provide powerful spatial representations. This raises an important question: can competitive video models be built by reusing these spatial representations and pre-training only for temporal reasoning? We take initial steps toward exploring a lightweight training paradigm that freezes a pre-trained image foundation model and trains only a recurrent temporal module to process streaming video. By reusing an image foundation model as a spatial encoder, this approach could significantly reduce the amount of video data and compute required compared to end-to-end video pre-training. In this work, we explore the feasibility of this approach before investing in computing for video pre-training. Our empirical findings across multiple video understanding tasks suggest that strong temporal performance can emerge without large-scale video pre-training, motivating future work on recurrent video foundation models obtained by pre-training a temporal module on top of a frozen image foundation model. Code: https://github.com/tue-mps/towards-video-image-frozen .
Abstract（参考訳）: ビデオファウンデーションモデルは、多くのビデオ理解タスクで強力なパフォーマンスを達成するが、通常、大量のビデオデータセットで大規模な事前トレーニングを必要とし、かなりのデータと計算コストをもたらす。対照的に、現代の画像基盤モデルは、既に強力な空間表現を提供している。競争力のあるビデオモデルは、これらの空間的表現を再利用し、時間的推論のためにのみ事前学習することで構築できるのだろうか? 我々は、トレーニング済みのイメージ基盤モデルを凍結する軽量なトレーニングパラダイムを探求し、ストリーミングビデオを処理するために、繰り返し時間モジュールのみを訓練する。画像基礎モデルを空間エンコーダとして再利用することにより、エンドツーエンドのビデオ事前学習と比較してビデオデータと計算量が大幅に削減される可能性がある。本研究では,ビデオ事前学習のためのコンピューティングに投資する前に,このアプローチの実現可能性について検討する。複数の映像理解タスクにまたがる実験結果から,大規模なビデオ事前学習を行なわずに時間的パフォーマンスが向上する可能性が示唆され,凍結画像基礎モデル上に時間的モジュールを事前学習することで得られる映像基礎モデルに関する今後の課題が示唆された。コード:https://github.com/tue-mps/towards-video-image-frozen。

関連論文リスト

How Important are Videos for Training Video LLMs? [55.965474658745315]
画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
論文参考訳（メタデータ） (2025-06-07T21:32:19Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-10-30T14:06:16Z)
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文参考訳（メタデータ） (2022-10-21T13:03:49Z)
Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文参考訳（メタデータ） (2022-10-08T07:03:31Z)
Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。 Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文参考訳（メタデータ） (2022-08-06T17:38:25Z)
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2021-04-01T17:48:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。