論文の概要: Transformers in Action:Weakly Supervised Action Segmentation
- arxiv url: http://arxiv.org/abs/2201.05675v1
- Date: Fri, 14 Jan 2022 21:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 19:35:03.555795
- Title: Transformers in Action:Weakly Supervised Action Segmentation
- Title(参考訳): 動作中のトランスフォーマー:weaklysupervised action segmentation
- Authors: John Ridley, Huseyin Coskun, David Joseph Tan, Nassir Navab, Federico
Tombari
- Abstract要約: 等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
- 参考スコア(独自算出の注目度): 81.18941007536468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The video action segmentation task is regularly explored under weaker forms
of supervision, such as transcript supervision, where a list of actions is
easier to obtain than dense frame-wise labels. In this formulation, the task
presents various challenges for sequence modeling approaches due to the
emphasis on action transition points, long sequence lengths, and frame
contextualization, making the task well-posed for transformers. Given
developments enabling transformers to scale linearly, we demonstrate through
our architecture how they can be applied to improve action alignment accuracy
over the equivalent RNN-based models with the attention mechanism focusing
around salient action transition regions. Additionally, given the recent focus
on inference-time transcript selection, we propose a supplemental transcript
embedding approach to select transcripts more quickly at inference-time.
Furthermore, we subsequently demonstrate how this approach can also improve the
overall segmentation performance. Finally, we evaluate our proposed methods
across the benchmark datasets to better understand the applicability of
transformers and the importance of transcript selection on this video-driven
weakly-supervised task.
- Abstract(参考訳): ビデオアクションセグメンテーションタスクは、フレームワイドラベルよりもアクションのリストの取得が容易な転写監督など、弱い形式の監督下で定期的に探索される。
この定式化では, 動作遷移点, 長周期長, フレームの文脈化に重点を置いたシーケンスモデリング手法の課題が提示され, トランスフォーマーに適している。
トランスフォーマーが線形にスケールできることを前提として,salient action transition regionに着目した注意機構を備えた,等価なrnnベースのモデルに対する動作アライメント精度の向上にどのように適用できるかを,我々のアーキテクチャを通して実証する。
さらに,近年の推論時間に焦点をあてて,推論時間より早く書き起こしを選択するための補足的書き起こし埋め込み手法を提案する。
さらに、このアプローチが全体的なセグメンテーション性能を改善できることを示す。
最後に、このビデオ駆動弱教師付きタスクにおけるトランスフォーマーの適用性と転写選択の重要性をよりよく理解するために、ベンチマークデータセット間で提案手法を評価した。
関連論文リスト
- Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary Alignment [33.74853437611066]
弱教師付きアクションセグメンテーションは、長いビデオを複数のアクションセグメンテーションに分割する学習である。
既存の手法の多くは、すべてのフレームと転写文間のシリアルアライメントによるトレーニングのために擬似セグメンテーションを推論する必要がある。
本稿では,雑音境界を効果的かつ効果的にフィルタリングし,遷移を検出する新しい行動遷移対応境界アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:39:44Z) - POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Entity-aware and Motion-aware Transformers for Language-driven Action
Localization in Videos [29.81187528951681]
動画中のアクションを段階的にローカライズするエンティティ・アウェア・モーション・アウェア・トランスフォーマーを提案する。
エンティティ対応トランスフォーマーは、テキストエンティティを視覚表現学習に組み込む。
動き認識変換器は、複数の時間スケールで微細な動き変化をキャプチャする。
論文 参考訳(メタデータ) (2022-05-12T03:00:40Z) - SVIP: Sequence VerIfication for Procedures in Videos [68.07865790764237]
ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行するポジティブなビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、事前のアクション検出やセグメンテーションなしで、オープンセット設定に置かれる。
我々は、化学実験において、あらゆる段階的な変換を列挙したスクリプト付きビデオデータセットを収集する。
論文 参考訳(メタデータ) (2021-12-13T07:03:36Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Temporal Action Proposal Generation with Transformers [25.66256889923748]
本稿では,オリジナルトランスフォーマーを用いた時間的アクション提案生成フレームワークを直感的に提案する。
境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測する。
The Proposal Transformer learns the rich-proposal relationship for reliable confidence evaluation。
論文 参考訳(メタデータ) (2021-05-25T16:22:12Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。