論文の概要: Test-Time Training on Video Streams
- arxiv url: http://arxiv.org/abs/2307.05014v2
- Date: Wed, 12 Jul 2023 04:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 10:22:04.653542
- Title: Test-Time Training on Video Streams
- Title(参考訳): ビデオストリームにおけるテスト時間トレーニング
- Authors: Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros,
Xiaolong Wang
- Abstract要約: 以前の作業では、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークとして、テストタイムトレーニング(TTT)を確立していました。
TTTをストリーミング設定に拡張し、複数のテストインスタンスが時間順に到着します。
オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 54.07009446207442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work has established test-time training (TTT) as a general framework to
further improve a trained model at test time. Before making a prediction on
each test instance, the model is trained on the same instance using a
self-supervised task, such as image reconstruction with masked autoencoders. We
extend TTT to the streaming setting, where multiple test instances - video
frames in our case - arrive in temporal order. Our extension is online TTT: The
current model is initialized from the previous model, then trained on the
current frame and a small window of frames immediately before. Online TTT
significantly outperforms the fixed-model baseline for four tasks, on three
real-world datasets. The relative improvement is 45% and 66% for instance and
panoptic segmentation. Surprisingly, online TTT also outperforms its offline
variant that accesses more information, training on all frames from the entire
test video regardless of temporal order. This differs from previous findings
using synthetic videos. We conceptualize locality as the advantage of online
over offline TTT. We analyze the role of locality with ablations and a theory
based on bias-variance trade-off.
- Abstract(参考訳): テスト時間トレーニング(TTT)は、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークである。
各テストインスタンスで予測を行う前に、モデルは同じインスタンス上で、マスク付きオートエンコーダによるイメージ再構成などの自己監督タスクを使用してトレーニングされる。
TTTをストリーミング設定に拡張し、複数のテストインスタンス(私たちの場合はビデオフレーム)が一時的な順序で到着します。
現在のモデルは、以前のモデルから初期化され、その後、現在のフレームと、直前に小さなフレームのウィンドウでトレーニングされます。
オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。
相対的な改善は、例えばパンオプティカルセグメンテーションの45%と66%である。
驚いたことに、オンラインtttはオフライン版よりも多くの情報にアクセスし、時間順に関わらずテストビデオ全体から全てのフレームをトレーニングする。
これは以前の合成ビデオによる発見とは異なる。
我々は、オフラインTTTよりもオンラインの方が有利であると概念化している。
アブレーションによる局所性の役割とバイアス分散トレードオフに基づく理論を解析した。
関連論文リスト
- Learning to (Learn at Test Time): RNNs with Expressive Hidden States [69.78469963604063]
本稿では,線形複雑度と表現的隠蔽状態を有する新しいシーケンスモデリング層を提案する。
隠れた状態はテストシーケンスでもトレーニングによって更新されるので、私たちのレイヤはテスト時間トレーニング層と呼ばれます。
論文 参考訳(メタデータ) (2024-07-05T16:23:20Z) - NC-TTT: A Noise Contrastive Approach for Test-Time Training [19.0284321951354]
ノイズコントラストテストタイムトレーニング(NC-TTT)は,ノイズの特徴マップの識別に基づく非教師なしTTT技術である。
予測された特徴写像のノイズの多いビューを分類し、新しい領域に応じてモデルを適応させることで、分類性能を重要なマージンで回復させることができる。
論文 参考訳(メタデータ) (2024-04-12T10:54:11Z) - Depth-aware Test-Time Training for Zero-shot Video Object Segmentation [48.2238806766877]
テストタイムトレーニング(TTT)戦略を導入し,未確認ビデオへの一般化問題に対処する。
我々の重要な洞察は、TTプロセス中に一貫した深さを予測するためにモデルを強制することである。
提案するビデオTT戦略は,最先端のTT法よりも優れている。
論文 参考訳(メタデータ) (2024-03-07T06:40:53Z) - ClusT3: Information Invariant Test-Time Training [19.461441044484427]
これらの脆弱性を軽減するため、TTT(Test-time Training)法が開発されている。
マルチスケール特徴写像と離散潜在表現の相互情報に基づく新しい非教師付きTTT手法を提案する。
実験結果から, 様々なテスト時間適応ベンチマークにおいて, 競争力のある分類性能が示された。
論文 参考訳(メタデータ) (2023-10-18T21:43:37Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Revisiting Realistic Test-Time Training: Sequential Inference and
Adaptation by Anchored Clustering [37.76664203157892]
テスト時アンカークラスタリング(TTAC)アプローチを開発し,より強力なテスト時特徴学習を実現する。
TTACはソースドメインとターゲットドメインの両方のクラスタを検出し、ターゲットクラスタとソースクラスタを一致させて、一般化を改善する。
すべてのTTプロトコルにおいて,TTACは5つのTTデータセットの最先端手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-06-06T16:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。