論文の概要: Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction
- arxiv url: http://arxiv.org/abs/2308.04589v2
- Date: Sun, 20 Aug 2023 11:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 22:15:26.763895
- Title: Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction
- Title(参考訳): テンポラル・ディノ:アクション予測を強化する自己監督型ビデオ戦略
- Authors: Izzeddin Teeti, Rongali Sai Bhargav, Vivek Singh, Andrew Bradley,
Biplab Banerjee, Fabio Cuzzolin
- Abstract要約: 本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
- 参考スコア(独自算出の注目度): 15.696593695918844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emerging field of action prediction plays a vital role in various
computer vision applications such as autonomous driving, activity analysis and
human-computer interaction. Despite significant advancements, accurately
predicting future actions remains a challenging problem due to high
dimensionality, complex dynamics and uncertainties inherent in video data.
Traditional supervised approaches require large amounts of labelled data, which
is expensive and time-consuming to obtain. This paper introduces a novel
self-supervised video strategy for enhancing action prediction inspired by DINO
(self-distillation with no labels). The Temporal-DINO approach employs two
models; a 'student' processing past frames; and a 'teacher' processing both
past and future frames, enabling a broader temporal context. During training,
the teacher guides the student to learn future context by only observing past
frames. The strategy is evaluated on ROAD dataset for the action prediction
downstream task using 3D-ResNet, Transformer, and LSTM architectures. The
experimental results showcase significant improvements in prediction
performance across these architectures, with our method achieving an average
enhancement of 9.9% Precision Points (PP), highlighting its effectiveness in
enhancing the backbones' capabilities of capturing long-term dependencies.
Furthermore, our approach demonstrates efficiency regarding the pretraining
dataset size and the number of epochs required. This method overcomes
limitations present in other approaches, including considering various backbone
architectures, addressing multiple prediction horizons, reducing reliance on
hand-crafted augmentations, and streamlining the pretraining process into a
single stage. These findings highlight the potential of our approach in diverse
video-based tasks such as activity recognition, motion planning, and scene
understanding.
- Abstract(参考訳): 行動予測の分野は、自律運転、アクティビティ分析、人間とコンピュータの相互作用など、様々なコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
大幅な進歩にもかかわらず、ビデオデータに固有の高次元性、複雑なダイナミクス、不確実性のために、将来の行動を正確に予測することは難しい問題である。
従来の教師付きアプローチでは大量のラベル付きデータが必要です。
本稿では,DINO (self-distillation with labels) にインスパイアされた行動予測を強化するための,新たな自己教師型ビデオ戦略を提案する。
テンポラル・ディノのアプローチでは、過去のフレームを「学生」処理する2つのモデルと、過去と将来のフレームの両方を「教師」処理することで、より広い時間的コンテキストを実現する。
授業中、教師は過去のフレームだけを観察して将来の文脈を学ぶよう指導する。
この戦略は3D-ResNet, Transformer, LSTMアーキテクチャを用いて, アクション予測下流タスクのためのROADデータセット上で評価される。
提案手法は,9.9%の精度ポイント(PP)を平均的に向上させるとともに,長期的依存関係を捕捉するバックボーンの能力向上に有効であることを示す。
さらに,本手法は,事前学習データセットのサイズと必要エポック数の効率性を示す。
この方法は、様々なバックボーンアーキテクチャを考慮し、複数の予測水平線に対処し、手作りの強化への依存を減らし、事前学習プロセスを単一のステージに合理化することを含む、他のアプローチにおける制限を克服する。
これらの結果は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
関連論文リスト
- Knowledge-aware Graph Transformer for Pedestrian Trajectory Prediction [15.454206825258169]
歩行者運動軌跡の予測は、自動運転車の経路計画と移動制御に不可欠である。
近年の深層学習に基づく予測手法は、主に軌跡履歴や歩行者間の相互作用などの情報を利用する。
本稿では,予測性能を向上させるためのグラフトランス構造を提案する。
論文 参考訳(メタデータ) (2024-01-10T01:50:29Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Multiscale Video Pretraining for Long-Term Activity Forecasting [67.06864386274736]
マルチスケールビデオプレトレーニングは、複数の時間スケールで将来のビデオクリップの文脈化された表現を予測することを学ぶことによって、予測のための堅牢な表現を学習する。
MVPは、ビデオ内のアクションは、通常、短い時間スケールでアトミックアクションが起こり、より複雑なアクションがより長い時間スケールで発生する、マルチスケールな性質を持つ、という私たちの観察に基づいています。
Ego4DとEpic-Kitchens-55/100データセットにわたる包括的な実験では、MVPが最先端のメソッドをかなりのマージンで上回っていることが示されています。
論文 参考訳(メタデータ) (2023-07-24T14:55:15Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Distilling Knowledge from Language Models for Video-based Action
Anticipation [31.59130630384036]
ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
本稿では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
論文 参考訳(メタデータ) (2022-10-12T08:02:11Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。