論文の概要: Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2510.10671v1
- Date: Sun, 12 Oct 2025 15:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.059503
- Title: Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey
- Title(参考訳): 画像言語基礎モデルに基づく画像間移動学習:総合的調査
- Authors: Jinxuan Li, Chaolei Tan, Haoxuan Chen, Jianxin Ma, Jian-Fang Hu, Wei-Shi Zheng, Jianhuang Lai,
- Abstract要約: Image-Language Foundation Models (ILFM) は画像テキスト理解・生成タスクにおいて顕著な成功を収めている。
この調査は、この新興分野に関する最初の総合的なレビューを提供する。
- 参考スコア(独自算出の注目度): 86.96983249116614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-Language Foundation Models (ILFM) have demonstrated remarkable success in image-text understanding/generation tasks, providing transferable multimodal representations that generalize across diverse downstream image-based tasks. The advancement of video-text research has spurred growing interest in extending image-based models to the video domain. This paradigm, known as image-to-video transfer learning, succeeds in alleviating the substantial data and computational requirements associated with training video-language foundation models from scratch for video-text learning. This survey provides the first comprehensive review of this emerging field, which begins by summarizing the widely used ILFM and their capabilities. We then systematically classify existing image-to-video transfer learning strategies into two categories: frozen features and modified features, depending on whether the original representations from ILFM are preserved or undergo modifications. Building upon the task-specific nature of image-to-video transfer, this survey methodically elaborates these strategies and details their applications across a spectrum of video-text learning tasks, ranging from fine-grained (e.g., spatio-temporal video grounding) to coarse-grained (e.g., video question answering). We further present a detailed experimental analysis to investigate the efficacy of different image-to-video transfer learning paradigms on a range of downstream video understanding tasks. Finally, we identify prevailing challenges and highlight promising directions for future research. By offering a comprehensive and structured overview, this survey aims to establish a structured roadmap for advancing video-text learning based on existing ILFM, and to inspire future research directions in this rapidly evolving domain.
- Abstract(参考訳): Image-Language Foundation Models (ILFM) は、画像テキスト理解/生成タスクにおいて顕著な成功を示し、様々な下流の画像ベースタスクを一般化する転送可能なマルチモーダル表現を提供する。
ビデオテキスト研究の進歩により、画像ベースのモデルをビデオ領域に拡張することへの関心が高まっている。
このパラダイムはイメージ・ツー・ビデオ・トランスファー・ラーニング(英語版)として知られるもので、ビデオテキスト学習のためのスクラッチからビデオ言語基盤モデルをトレーニングすることに伴う、実質的なデータと計算要求を軽減することに成功している。
この調査は、広く使われているILFMとその能力の要約から始まる、この新興分野に関する最初の包括的なレビューを提供する。
次に,ILFMからの表現が保存されているか,あるいは修正されているかによって,既存の画像から映像への変換学習戦略を,凍結特徴と修正特徴の2つのカテゴリに分類する。
本研究は,映像間移動のタスク固有の性質を基盤として,これらの戦略を整理し,細粒度(例えば,時空間的ビデオグラウンド)から粗粒度(例えば,ビデオ質問応答)まで,ビデオテキスト学習タスクの範囲にわたって,その応用を詳細に述べる。
さらに、ダウンストリーム映像理解タスクにおける画像間移動学習のパラダイムの有効性を検討するための詳細な実験的検討を行った。
最後に、普及している課題を特定し、今後の研究に期待できる方向性を明らかにする。
本調査は、包括的かつ構造化された概要を提供することにより、既存のILFMに基づくビデオテキスト学習を促進するための構造化されたロードマップを確立し、この急速に発展する領域における将来の研究方向性を刺激することを目的とする。
関連論文リスト
- VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents [105.43882565434444]
VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。
まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。
次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
論文 参考訳(メタデータ) (2025-07-07T00:51:57Z) - Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators [46.40277880351059]
環境と相互作用するモデルのための新しいインタフェースとして視覚信号を活用することを検討する。
デモビデオからセマンティクスを推測し,そのセマンティクスを未知のシナリオに模倣する,ゼロショット機能を実現していることがわかった。
その結果,本モデルでは,デモビデオが提供する意味指導と正確に一致した高品質なビデオクリップを生成できることがわかった。
論文 参考訳(メタデータ) (2024-07-10T04:27:06Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Self-supervised video pretraining yields robust and more human-aligned visual representations [14.599429594703539]
一般的な表現は、画像理解タスクにおける事前ビデオ事前学習法よりもはるかに優れている。
VITO表現は、画像、ビデオ、および逆向きに訓練されたものよりも、自然および合成的な変形に対して著しく堅牢である。
これらの結果は、ビデオ事前学習は、視覚世界の統一的、堅牢で、人間と協調した表現を学習する簡単な方法になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-10-12T17:30:12Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文 参考訳(メタデータ) (2020-09-04T06:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。