論文の概要: Multi-dataset Training of Transformers for Robust Action Recognition
- arxiv url: http://arxiv.org/abs/2209.12362v1
- Date: Mon, 26 Sep 2022 01:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:23:27.394012
- Title: Multi-dataset Training of Transformers for Robust Action Recognition
- Title(参考訳): ロバスト動作認識のための変換器のマルチデータセット学習
- Authors: Junwei Liang, Enwei Zhang, Jun Zhang, Chunhua Shen
- Abstract要約: 動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
- 参考スコア(独自算出の注目度): 75.5695991766902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the task of robust feature representations, aiming to generalize
well on multiple datasets for action recognition. We build our method on
Transformers for its efficacy. Although we have witnessed great progress for
video action recognition in the past decade, it remains challenging yet
valuable how to train a single model that can perform well across multiple
datasets. Here, we propose a novel multi-dataset training paradigm, MultiTrain,
with the design of two new loss terms, namely informative loss and projection
loss, aiming to learn robust representations for action recognition. In
particular, the informative loss maximizes the expressiveness of the feature
embedding while the projection loss for each dataset mines the intrinsic
relations between classes across datasets. We verify the effectiveness of our
method on five challenging datasets, Kinetics-400, Kinetics-700,
Moments-in-Time, Activitynet and Something-something-v2 datasets. Extensive
experimental results show that our method can consistently improve the
state-of-the-art performance.
- Abstract(参考訳): 動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
我々はその有効性のためにトランスフォーマーを用いた手法を構築した。
過去10年間、ビデオアクション認識の大きな進歩を目の当たりにしてきたが、複数のデータセットにまたがってうまく機能する単一のモデルをトレーニングする方法は、いまだに重要ではない。
本稿では、情報損失と投影損失という2つの新しい損失項を設計し、アクション認識のための堅牢な表現を学習することを目的とした、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
特に、情報的損失は、各データセットの投影損失がデータセット全体のクラス間の固有の関係をマイニングする一方で、機能埋め込みの表現性を最大化する。
提案手法は,5つの挑戦的データセットである kinetics-400, kinetics-700, moments-in-time, activitynet, something-something-v2 データセットの有効性を検証する。
実験結果から,本手法は常に最先端の性能を向上できることが示された。
関連論文リスト
- Reducing catastrophic forgetting of incremental learning in the absence of rehearsal memory with task-specific token [0.6144680854063939]
ディープラーニングモデルは、新しいデータを継続的に学習する際に破滅的な忘れを見せる。
本稿では,従来のデータを保存することなく,過去の知識を保存できる新しい手法を提案する。
この方法は視覚変換器のアーキテクチャにインスパイアされ、各タスクの圧縮された知識をカプセル化できるユニークなトークンを使用する。
論文 参考訳(メタデータ) (2024-11-06T16:13:50Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Decoupling the Role of Data, Attention, and Losses in Multimodal
Transformers [20.343814813409537]
学習表現の質に影響を与える重要な要因として,事前学習データ,注意機構,損失関数の3つについて検討する。
6つのデータセット上でモデルを事前学習することにより、下流タスクとデータセットのノイズと言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。
自己教師型学習文献では,マルチモーダル変圧器でも同様の性能向上が得られない。
論文 参考訳(メタデータ) (2021-01-31T20:36:41Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。