論文の概要: TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale
- arxiv url: http://arxiv.org/abs/2305.14173v1
- Date: Tue, 23 May 2023 15:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:14:31.031942
- Title: TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale
- Title(参考訳): TVTSv2: 時空間の空間的表現を大規模に学習する
- Authors: Ziyun Zeng, Yixiao Ge, Zhan Tong, Xihui Liu, Shu-Tao Xia, Ying Shan
- Abstract要約: 言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
- 参考スコア(独自算出の注目度): 59.01246141215051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ultimate goal for foundation models is realizing task-agnostic, i.e.,
supporting out-of-the-box usage without task-specific fine-tuning. Although
breakthroughs have been made in natural language processing and image
representation learning, it is still challenging for video models to reach it
due to the increasing uncertainty of spatiotemporal signals. To ease training,
existing works leverage image foundation models' prior knowledge and equip them
with efficient temporal modules. Despite the satisfactory fine-tuning
performance, we empirically find they fall short of out-of-the-box usage, given
the even degraded performance in zero-shot/linear protocols compared to their
baseline counterparts. In this work, we analyze the factor that leads to
degradation from the perspective of language supervision distortion. We argue
that tuning a text encoder end-to-end, as done in previous work, is suboptimal
since it may overfit in terms of styles, thereby losing its original
generalization ability to capture the semantics of various language registers.
The overfitted text encoder, in turn, provides a harmful supervision signal,
degrading the video representation. To tackle this issue, we propose a
degradation-free pre-training strategy to retain the generalization ability of
the text encoder via freezing shallow layers while enabling the task-related
semantics capturing in tunable deep layers. As for the training objective, we
adopted the transcript sorting task in TVTS incorporated with masking
techniques to enable scalable training. As a result, we produce a series of
models, dubbed TVTSv2, with up to one billion parameters. We achieve new
state-of-the-arts on various video benchmarks with a frozen backbone,
surpassing the recent ImageBind, InternVideo, etc. Code is available at
https://github.com/TencentARC/TVTS.
- Abstract(参考訳): 基礎モデルの最終的な目標は、タスク非依存、すなわちタスク固有の微調整なしでのアウト・オブ・ボックスの使用をサポートすることを実現することである。
自然言語処理や画像表現学習におけるブレークスルーはあったが、時空間信号の不確実性が高まるため、ビデオモデルがそれに到達することは依然として困難である。
トレーニングを容易にするため、既存の作品はイメージファウンデーションモデルの事前知識を活用し、効率的なテンポラリモジュールを装備している。
良好な微調整性能にもかかわらず、ゼロショット/リニアプロトコルのパフォーマンスがベースラインのプロトコルと比べてさらに低下していることを考えると、アウトオブボックスの使い方に欠けていることが実証的に分かります。
本研究では,言語指導の歪みの観点から,その劣化要因を解析する。
テキストエンコーダをエンド・ツー・エンドにチューニングすることは、スタイルの面で過度に適合する可能性があり、様々な言語レジスタのセマンティクスをキャプチャする本来の一般化能力を失うため、前回の研究と同様に、最適ではない。
過度に適合したテキストエンコーダは、ビデオ表現を劣化させる有害な監視信号を提供する。
この問題に対処するために,タスク関連セマンティクスを調整可能な深層に取り込みながら,浅い層を凍結することでテキストエンコーダの一般化能力を維持するための,劣化のない事前学習戦略を提案する。
トレーニングの目的については,拡張性のあるトレーニングを実現するために,マスキング技術が組み込まれたTVTSの書き起こし分類タスクを採用した。
その結果、最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを生成しました。
我々は,最新のImageBindやInternVideoなどを上回る冷凍バックボーンを備えたさまざまなビデオベンチマークで,新たな最先端技術を実現している。
コードはhttps://github.com/TencentARC/TVTSで公開されている。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Curriculum Learning for Recurrent Video Object Segmentation [2.3376061255029064]
本研究は,繰り返しアーキテクチャの性能を著しく向上させるため,異なるスケジュールサンプリングとフレームスキップのバリエーションについて検討する。
KITTI-MOTS チャレンジのカークラスにおける結果から, 意外なことに, 逆スケジュールサンプリングの方が, 従来のフォワードよりも優れた選択肢であることが示唆された。
論文 参考訳(メタデータ) (2020-08-15T10:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。