論文の概要: Online pre-training with long-form videos
- arxiv url: http://arxiv.org/abs/2408.15651v1
- Date: Wed, 28 Aug 2024 09:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:43:13.046393
- Title: Online pre-training with long-form videos
- Title(参考訳): 長編ビデオによるオンライン事前トレーニング
- Authors: Itsuki Kato, Kodai Kamiya, Toru Tamaki,
- Abstract要約: 事前学習の3つの方法(マスクド画像モデリング、コントラスト学習、知識蒸留)について検討する。
コントラスト学習によるオンライン事前学習は、下流タスクで最高のパフォーマンスを示した。
以上の結果から,長ビデオからの学習は,短ビデオを用いた行動認識に有用であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we investigate the impact of online pre-training with continuous video clips. We will examine three methods for pre-training (masked image modeling, contrastive learning, and knowledge distillation), and assess the performance on downstream action recognition tasks. As a result, online pre-training with contrast learning showed the highest performance in downstream tasks. Our findings suggest that learning from long-form videos can be helpful for action recognition with short videos.
- Abstract(参考訳): 本研究では,連続ビデオクリップによるオンライン事前学習の効果について検討する。
本稿では,3つの事前学習手法(マスド画像モデリング,コントラスト学習,知識蒸留)について検討し,下流行動認識タスクの性能評価を行う。
その結果、コントラスト学習によるオンライン事前学習は、下流タスクにおいて最高のパフォーマンスを示した。
以上の結果から,長ビデオからの学習は,短ビデオを用いた行動認識に有用であることが示唆された。
関連論文リスト
- Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。
事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。
この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文 参考訳(メタデータ) (2024-11-05T15:18:02Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition [9.7642886315723]
この研究は、ロングビデオ上で認識モデルをトレーニングするための、弱い教師付きエンドツーエンドフレームワークを構築することを目的としている。
提案するフレームワーク,すなわちAdaptFocusは,情報的アクションクリップに適応的にフォーカスするために,アクションの発生頻度を推定する。
提案するAdaptFocusフレームワークの有効性は,3つの長ビデオデータセットで実証されている。
論文 参考訳(メタデータ) (2023-11-28T12:30:47Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。