論文の概要: Turbo Training with Token Dropout
- arxiv url: http://arxiv.org/abs/2210.04889v1
- Date: Mon, 10 Oct 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:12:43.304904
- Title: Turbo Training with Token Dropout
- Title(参考訳): Token Dropout を用いたターボトレーニング
- Authors: Tengda Han, Weidi Xie, Andrew Zisserman
- Abstract要約: 複数のビデオタスクにおけるトランスフォーマーのためのシンプルで多用途なトレーニングパラダイムであるTurbo Trainingを提案する。
ターボトレーニングは、ほぼ4倍のスピードアップを実現し、メモリ消費を大幅に削減しながら、ほぼ競争性能を維持することができる。
- 参考スコア(独自算出の注目度): 103.69904379356413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is an efficient training method for video tasks.
We make three contributions: (1) We propose Turbo training, a simple and
versatile training paradigm for Transformers on multiple video tasks. (2) We
illustrate the advantages of Turbo training on action classification,
video-language representation learning, and long-video activity classification,
showing that Turbo training can largely maintain competitive performance while
achieving almost 4X speed-up and significantly less memory consumption. (3)
Turbo training enables long-schedule video-language training and end-to-end
long-video training, delivering competitive or superior performance than
previous works, which were infeasible to train under limited resources.
- Abstract(参考訳): 本研究の目的は,映像タスクの効率的な訓練方法である。
1)複数のビデオタスクにおけるトランスフォーマーのためのシンプルで多目的なトレーニングパラダイムであるTurbo Trainingを提案する。
2) 動作分類, 映像言語表現学習, 長時間映像活動分類におけるTurboトレーニングの利点について述べるとともに, ほぼ4倍のスピードアップを実現し, メモリ消費を大幅に削減できることを示す。
(3) ターボトレーニングは, 限られた資源下でのトレーニングが不可能な, 従来よりも競争力や優れたパフォーマンスを実現するため, 長距離ビデオ言語訓練とエンドツーエンドビデオ訓練を可能にする。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Online pre-training with long-form videos [0.0]
事前学習の3つの方法(マスクド画像モデリング、コントラスト学習、知識蒸留)について検討する。
コントラスト学習によるオンライン事前学習は、下流タスクで最高のパフォーマンスを示した。
以上の結果から,長ビデオからの学習は,短ビデオを用いた行動認識に有用であることが示唆された。
論文 参考訳(メタデータ) (2024-08-28T09:07:40Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - A General and Efficient Training for Transformer via Token Expansion [44.002355107931805]
ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。
既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
論文 参考訳(メタデータ) (2024-03-31T12:44:24Z) - Automated Progressive Learning for Efficient Training of Vision
Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T05:37:08Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。