論文の概要: Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation
- arxiv url: http://arxiv.org/abs/2205.13425v1
- Date: Thu, 26 May 2022 15:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:29:43.054406
- Title: Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation
- Title(参考訳): 動作セグメンテーションのための境界認識損失を考慮した効率的なU変換器
- Authors: Dazhao Du, Bing Su, Yu Li, Zhongang Qi, Lingyu Si, Ying Shan
- Abstract要約: U-Netアーキテクチャを組み込むことで、時間的畳み込みのない純粋なトランスフォーマーベースモデルを設計する。
本稿では,アテンションモジュールからのフレーム間の類似度スコアの分布に基づく境界認識損失を提案する。
- 参考スコア(独自算出の注目度): 34.502472072265164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action classification has made great progress, but segmenting and recognizing
actions from long untrimmed videos remains a challenging problem. Most
state-of-the-art methods focus on designing temporal convolution-based models,
but the limitations on modeling long-term temporal dependencies and
inflexibility of temporal convolutions limit the potential of these models.
Recently, Transformer-based models with flexible and strong sequence modeling
ability have been applied in various tasks. However, the lack of inductive bias
and the inefficiency of handling long video sequences limit the application of
Transformer in action segmentation. In this paper, we design a pure
Transformer-based model without temporal convolutions by incorporating the
U-Net architecture. The U-Transformer architecture reduces complexity while
introducing an inductive bias that adjacent frames are more likely to belong to
the same class, but the introduction of coarse resolutions results in the
misclassification of boundaries. We observe that the similarity distribution
between a boundary frame and its neighboring frames depends on whether the
boundary frame is the start or end of an action segment. Therefore, we further
propose a boundary-aware loss based on the distribution of similarity scores
between frames from attention modules to enhance the ability to recognize
boundaries. Extensive experiments show the effectiveness of our model.
- Abstract(参考訳): アクション分類は大きな進歩を遂げているが、長い未編集ビデオからのアクションのセグメンテーションと認識は依然として難しい問題である。
最先端のほとんどの手法は、時間的畳み込みに基づくモデルの設計に重点を置いているが、長期的な時間的依存関係のモデリングと時間的畳み込みの柔軟性の制限は、これらのモデルの可能性を制限する。
近年, フレキシブルかつ強いシーケンスモデリング能力を持つトランスフォーマーモデルが様々なタスクに応用されている。
しかしながら、インダクティブバイアスの欠如と長いビデオシーケンスの処理の非効率は、アクションセグメンテーションにおけるトランスフォーマーの適用を制限する。
本稿では,U-Netアーキテクチャを組み込んで,時間的畳み込みを伴わない純粋トランスフォーマーモデルの設計を行う。
U-Transformerアーキテクチャは、隣接するフレームが同じクラスに属する可能性が高い誘導バイアスを導入しながら複雑さを減少させるが、粗い解像度の導入は境界の誤分類をもたらす。
境界フレームとその隣接フレーム間の類似度分布は、その境界フレームがアクションセグメントの開始か終了かに依存することを観測する。
そこで我々は,注意モジュールからフレーム間の類似度スコアの分布に基づく境界認識損失を提案し,境界認識能力を向上させる。
広範な実験により,モデルの有効性が示された。
関連論文リスト
- Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。
私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。
リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文 参考訳(メタデータ) (2024-04-16T19:59:21Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - Temporal Transformer Networks with Self-Supervision for Action
Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文 参考訳(メタデータ) (2021-12-14T12:53:53Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。