論文の概要: InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
- arxiv url: http://arxiv.org/abs/2512.01342v1
- Date: Mon, 01 Dec 2025 06:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.727697
- Title: InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
- Title(参考訳): InternVideo-Next:ビデオテキスト・スーパービジョンなしの一般ビデオ財団モデルを目指して
- Authors: Chenting Wang, Yuhan Zhu, Yicheng Xu, Jiange Yang, Ziang Yan, Yali Wang, Yi Wang, Limin Wang,
- Abstract要約: 大規模ビデオテキスト事前学習は高い性能を達成するが、意味的範囲が限られているため、ノイズの多い合成時間に依存する。
Masked Video Modeling (MVM) はパスを直接活用するが、一般的なタスクではテキストを教師する手法である。
InternVideo-Nextは2段階の事前学習方式で、セマンティックに一貫性があるが詳細保存可能な潜在空間を構築できる。
- 参考スコア(独自算出の注目度): 29.40602634269908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale video-text pretraining achieves strong performance but depends on noisy, synthetic captions with limited semantic coverage, often overlooking implicit world knowledge such as object motion, 3D geometry, and physical cues. In contrast, masked video modeling (MVM) directly exploits spatiotemporal structures but trails text-supervised methods on general tasks. We find this gap arises from overlooked architectural issues: pixel-level reconstruction struggles with convergence and its low-level requirement often conflicts with semantics, while latent prediction often encourages shortcut learning. To address these, we disentangle the traditional encoder-decoder design into an Encoder-Predictor-Decoder (EPD) framework, where the predictor acts as a latent world model, and propose InternVideo-Next, a two-stage pretraining scheme that builds a semantically consistent yet detail-preserving latent space for this world model. First, conventional linear decoder in pixel MVM enforces the predictor output latent to be linearly projected to, thus separable in pixel space, causing the conflict with semantic abstraction. Our Stage 1 proposes a conditional diffusion decoder and injects reliable image-level semantic priors to enhance semantics and convergence, thus bridging pixel-level fidelity with high-level semantic abstraction. Stage 2 further learns world knowledge by predicting frozen Stage 1 targets within this space, mitigating shortcut learning. Trained on public, unlabeled videos, InternVideo-Next achieves state-of-the-art results across benchmarks and provides a scalable path toward general video representation learning.
- Abstract(参考訳): 大規模なビデオテキスト事前学習は、強いパフォーマンスを達成するが、ノイズや意味的範囲が限定された合成キャプションに依存し、しばしばオブジェクトの動きや3D幾何学、物理的な手がかりといった暗黙の世界の知識を見落としている。
対照的に、マスク付きビデオモデリング(MVM)は時空間構造を直接活用するが、一般的なタスクではテキスト管理手法を追従する。
ピクセルレベルの再構築は収束と闘い、低レベルの要求はしばしば意味論と矛盾するが、潜在予測はしばしばショートカット学習を促進する。
そこで我々は,従来のエンコーダ・デコーダ設計をEncoder-Predictor-Decoder (EPD) フレームワークに切り離し,予測器が潜在世界モデルとして機能し,この世界モデルに対して意味論的に一貫した詳細保存空間を構築するための2段階事前学習スキームであるInternVideo-Nextを提案する。
第一に、ピクセルMVMにおける従来の線形デコーダは、線形射影された予測子出力を線形射影し、ピクセル空間で分離可能であり、セマンティック抽象化との矛盾を引き起こす。
我々のステージ1では、条件付き拡散デコーダを提案し、セマンティクスと収束性を高めるために、信頼性の高い画像レベルのセマンティクスを注入し、高レベルのセマンティクスの抽象化でピクセルレベルの忠実度をブリッジする。
ステージ2は、この空間内の凍ったステージ1の目標を予測し、ショートカット学習を緩和することで、世界の知識をさらに学習する。
InternVideo-Nextは、公開されていないビデオに基づいてトレーニングされ、ベンチマーク全体で最先端の結果を達成し、一般的なビデオ表現学習へのスケーラブルなパスを提供する。
関連論文リスト
- Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - FRAME: Pre-Training Video Feature Representations via Anticipation and Memory [55.046881477209695]
FRAMEは、高密度ビデオ理解に適した自己監督型ビデオフレームエンコーダである。
同社は、過去と現在のRGBフレームから現在と将来のDINOパッチ機能を予測することを学ぶ。
画像エンコーダや既存の自己監督型ビデオモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-06-05T19:44:47Z) - Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - Hierarchical Semantic Contrast for Scene-aware Video Anomaly Detection [14.721615285883423]
本研究では,通常のビデオからシーン認識型VADモデルを学習するための階層的意味コントラスト(HSC)手法を提案する。
この階層的なセマンティックコントラスト戦略は、通常のパターンの多様性に対処し、識別能力を高めるのに役立つ。
論文 参考訳(メタデータ) (2023-03-23T05:53:34Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。