Fugu-MT 論文翻訳(概要): Test-Time Training on Video Streams

論文の概要: Test-Time Training on Video Streams

arxiv url: http://arxiv.org/abs/2307.05014v3
Date: Sat, 04 Jan 2025 03:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:49.120574
Title: Test-Time Training on Video Streams
Title（参考訳）: ビデオストリームにおけるテスト時間トレーニング
Authors: Renhao Wang, Yu Sun, Arnuv Tandon, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang,
Abstract要約: 以前の作業では、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークとして、テスト時間トレーニング(TTT)が確立されていた。 TTTをストリーミング設定に拡張し、複数のテストインスタンスが時間順に到着します。オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。
参考スコア（独自算出の注目度）: 66.63237260332984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior work has established Test-Time Training (TTT) as a general framework to further improve a trained model at test time. Before making a prediction on each test instance, the model is first trained on the same instance using a self-supervised task such as reconstruction. We extend TTT to the streaming setting, where multiple test instances - video frames in our case - arrive in temporal order. Our extension is online TTT: The current model is initialized from the previous model, then trained on the current frame and a small window of frames immediately before. Online TTT significantly outperforms the fixed-model baseline for four tasks, on three real-world datasets. The improvements are more than 2.2x and 1.5x for instance and panoptic segmentation. Surprisingly, online TTT also outperforms its offline variant that accesses strictly more information, training on all frames from the entire test video regardless of temporal order. This finding challenges those in prior work using synthetic videos. We formalize a notion of locality as the advantage of online over offline TTT, and analyze its role with ablations and a theory based on bias-variance trade-off.
Abstract（参考訳）: 以前の作業では、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークとして、テスト時間トレーニング(TTT)が確立されていた。各テストインスタンスで予測を行う前に、モデルが最初に同じインスタンス上で、再構築などの自己管理タスクを使用してトレーニングされる。 TTTをストリーミング設定に拡張し、複数のテストインスタンス(私たちの場合はビデオフレーム)が一時的な順序で到着します。現在のモデルは、以前のモデルから初期化され、その後、現在のフレームと、直前に小さなフレームのウィンドウでトレーニングされます。オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。改良点は、例えば2.2xと1.5x以上であり、パノプティカルセグメンテーションである。意外なことに、オンラインTTTは、時間順に関わらずテストビデオ全体から、厳格に多くの情報にアクセスし、すべてのフレームをトレーニングするオフライン版よりも優れています。この発見は、合成ビデオを使った以前の作業における課題である。我々は、オフラインTTT上でのオンラインの利点として局所性の概念を定式化し、その役割を、バイアス分散トレードオフに基づくアブレーションと理論を用いて分析する。

関連論文リスト

CTA: Cross-Task Alignment for Better Test Time Training [10.54024648915477]
テストタイムトレーニング(TTT)は、モデルロバスト性を高める効果的な方法として登場した。 CTA(Cross-Task Alignment)は,TTTを改善するための新しいアプローチである。いくつかのベンチマークデータセット上で、最先端技術よりもロバスト性や一般化が大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-07-07T17:33:20Z)
Test-Time Training Provably Improves Transformers as In-context Learners [49.09821664572445]
テキスト内学習のための勾配に基づくTTTアルゴリズムについて検討する。テストプロンプトで提供されるコンテキスト内デモに対して,トランスフォーマーモデルをトレーニングする。経験的貢献として,TabPFNに対するTTTの有用性について検討した。
論文参考訳（メタデータ） (2025-03-14T20:06:37Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。 Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
NC-TTT: A Noise Contrastive Approach for Test-Time Training [19.0284321951354]
ノイズコントラストテストタイムトレーニング(NC-TTT)は,ノイズの特徴マップの識別に基づく非教師なしTTT技術である。予測された特徴写像のノイズの多いビューを分類し、新しい領域に応じてモデルを適応させることで、分類性能を重要なマージンで回復させることができる。
論文参考訳（メタデータ） (2024-04-12T10:54:11Z)
Depth-aware Test-Time Training for Zero-shot Video Object Segmentation [48.2238806766877]
テストタイムトレーニング(TTT)戦略を導入し,未確認ビデオへの一般化問題に対処する。我々の重要な洞察は、TTプロセス中に一貫した深さを予測するためにモデルを強制することである。提案するビデオTT戦略は,最先端のTT法よりも優れている。
論文参考訳（メタデータ） (2024-03-07T06:40:53Z)
Technical Report for ICCV 2023 Visual Continual Learning Challenge: Continuous Test-time Adaptation for Semantic Segmentation [18.299549256484887]
この課題の目標は、セマンティックセグメンテーションタスクのためのビデオシーケンスのドメインを徐々に変更するようにモデルを適応させるテスト時間適応(TTA)手法を開発することである。 TTA法は、各画像シーケンス(ビデオ)で別々に評価され、つまり、次のシーケンスの前に、モデルがソースモデル状態にリセットされる。提案されたソリューションは、チャレンジで3位を獲得し、イノベーションアワードを受賞した。
論文参考訳（メタデータ） (2023-10-20T14:20:21Z)
ClusT3: Information Invariant Test-Time Training [19.461441044484427]
これらの脆弱性を軽減するため、TTT(Test-time Training)法が開発されている。マルチスケール特徴写像と離散潜在表現の相互情報に基づく新しい非教師付きTTT手法を提案する。実験結果から, 様々なテスト時間適応ベンチマークにおいて, 競争力のある分類性能が示された。
論文参考訳（メタデータ） (2023-10-18T21:43:37Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。 THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文参考訳（メタデータ） (2022-11-08T04:50:54Z)
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。 TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文参考訳（メタデータ） (2022-09-15T17:55:11Z)
Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文参考訳（メタデータ） (2021-06-17T02:30:26Z)
Dense Regression Network for Video Grounding [97.57178850020327]
地上の真理の中のフレームと開始(終了)フレームの間の距離を高密度の監督として利用し、映像のグラウンド化精度を向上させる。具体的には、各フレームからビデオセグメントの開始(終了)フレームまでの距離を抑えるために、新しい高密度回帰ネットワーク(DRN)を設計する。また,グラウンドリング結果の局所化品質を明示的に考慮するために,単純だが効果的なIoU回帰ヘッドモジュールを提案する。
論文参考訳（メタデータ） (2020-04-07T17:15:37Z)
Temporally Coherent Embeddings for Self-Supervised Video Representation Learning [2.216657815393579]
本稿では,自己教師型ビデオ表現学習のためのテンポラリコヒーレントな埋め込みについて述べる。提案手法は,非ラベル付きビデオデータの固有構造を利用して,埋め込み空間における時間的コヒーレンシを明示的に強制する。単純な2D-CNNバックボーンとRGBストリーム入力のみにより、TCE事前訓練された表現は、UCF101で事前訓練された以前の2D-CNNと3D-CNNよりも優れていた。
論文参考訳（メタデータ） (2020-03-21T12:25:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。