論文の概要: Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction
- arxiv url: http://arxiv.org/abs/2308.04589v1
- Date: Tue, 8 Aug 2023 21:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:02:03.829661
- Title: Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction
- Title(参考訳): テンポラル・ディノ:アクション予測を強化する自己監督型ビデオ戦略
- Authors: Izzeddin Teeti, Rongali Sai Bhargav, Vivek Singh, Andrew Bradley,
Biplab Banerjee, Fabio Cuzzolin
- Abstract要約: 本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
- 参考スコア(独自算出の注目度): 14.794595292085248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emerging field of action prediction plays a vital role in various
computer vision applications such as autonomous driving, activity analysis and
human-computer interaction. Despite significant advancements, accurately
predicting future actions remains a challenging problem due to high
dimensionality, complex dynamics and uncertainties inherent in video data.
Traditional supervised approaches require large amounts of labelled data, which
is expensive and time-consuming to obtain. This paper introduces a novel
self-supervised video strategy for enhancing action prediction inspired by DINO
(self-distillation with no labels). The Temporal-DINO approach employs two
models; a 'student' processing past frames; and a 'teacher' processing both
past and future frames, enabling a broader temporal context. During training,
the teacher guides the student to learn future context by only observing past
frames. The strategy is evaluated on ROAD dataset for the action prediction
downstream task using 3D-ResNet, Transformer, and LSTM architectures. The
experimental results showcase significant improvements in prediction
performance across these architectures, with our method achieving an average
enhancement of 9.9% Precision Points (PP), highlighting its effectiveness in
enhancing the backbones' capabilities of capturing long-term dependencies.
Furthermore, our approach demonstrates efficiency regarding the pretraining
dataset size and the number of epochs required. This method overcomes
limitations present in other approaches, including considering various backbone
architectures, addressing multiple prediction horizons, reducing reliance on
hand-crafted augmentations, and streamlining the pretraining process into a
single stage. These findings highlight the potential of our approach in diverse
video-based tasks such as activity recognition, motion planning, and scene
understanding.
- Abstract(参考訳): 行動予測の分野は、自律運転、アクティビティ分析、人間とコンピュータの相互作用など、様々なコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
大幅な進歩にもかかわらず、ビデオデータに固有の高次元性、複雑なダイナミクス、不確実性のために、将来の行動を正確に予測することは難しい問題である。
従来の教師付きアプローチでは大量のラベル付きデータが必要です。
本稿では,DINO (self-distillation with labels) にインスパイアされた行動予測を強化するための,新たな自己教師型ビデオ戦略を提案する。
テンポラル・ディノのアプローチでは、過去のフレームを「学生」処理する2つのモデルと、過去と将来のフレームの両方を「教師」処理することで、より広い時間的コンテキストを実現する。
授業中、教師は過去のフレームだけを観察して将来の文脈を学ぶよう指導する。
この戦略は3D-ResNet, Transformer, LSTMアーキテクチャを用いて, アクション予測下流タスクのためのROADデータセット上で評価される。
提案手法は,9.9%の精度ポイント(PP)を平均的に向上させるとともに,長期的依存関係を捕捉するバックボーンの能力向上に有効であることを示す。
さらに,本手法は,事前学習データセットのサイズと必要エポック数の効率性を示す。
この方法は、様々なバックボーンアーキテクチャを考慮し、複数の予測水平線に対処し、手作りの強化への依存を減らし、事前学習プロセスを単一のステージに合理化することを含む、他のアプローチにおける制限を克服する。
これらの結果は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
関連論文リスト
- VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Knowledge-aware Graph Transformer for Pedestrian Trajectory Prediction [15.454206825258169]
歩行者運動軌跡の予測は、自動運転車の経路計画と移動制御に不可欠である。
近年の深層学習に基づく予測手法は、主に軌跡履歴や歩行者間の相互作用などの情報を利用する。
本稿では,予測性能を向上させるためのグラフトランス構造を提案する。
論文 参考訳(メタデータ) (2024-01-10T01:50:29Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。