論文の概要: Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation
- arxiv url: http://arxiv.org/abs/2205.13425v1
- Date: Thu, 26 May 2022 15:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:29:43.054406
- Title: Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation
- Title(参考訳): 動作セグメンテーションのための境界認識損失を考慮した効率的なU変換器
- Authors: Dazhao Du, Bing Su, Yu Li, Zhongang Qi, Lingyu Si, Ying Shan
- Abstract要約: U-Netアーキテクチャを組み込むことで、時間的畳み込みのない純粋なトランスフォーマーベースモデルを設計する。
本稿では,アテンションモジュールからのフレーム間の類似度スコアの分布に基づく境界認識損失を提案する。
- 参考スコア(独自算出の注目度): 34.502472072265164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action classification has made great progress, but segmenting and recognizing
actions from long untrimmed videos remains a challenging problem. Most
state-of-the-art methods focus on designing temporal convolution-based models,
but the limitations on modeling long-term temporal dependencies and
inflexibility of temporal convolutions limit the potential of these models.
Recently, Transformer-based models with flexible and strong sequence modeling
ability have been applied in various tasks. However, the lack of inductive bias
and the inefficiency of handling long video sequences limit the application of
Transformer in action segmentation. In this paper, we design a pure
Transformer-based model without temporal convolutions by incorporating the
U-Net architecture. The U-Transformer architecture reduces complexity while
introducing an inductive bias that adjacent frames are more likely to belong to
the same class, but the introduction of coarse resolutions results in the
misclassification of boundaries. We observe that the similarity distribution
between a boundary frame and its neighboring frames depends on whether the
boundary frame is the start or end of an action segment. Therefore, we further
propose a boundary-aware loss based on the distribution of similarity scores
between frames from attention modules to enhance the ability to recognize
boundaries. Extensive experiments show the effectiveness of our model.
- Abstract(参考訳): アクション分類は大きな進歩を遂げているが、長い未編集ビデオからのアクションのセグメンテーションと認識は依然として難しい問題である。
最先端のほとんどの手法は、時間的畳み込みに基づくモデルの設計に重点を置いているが、長期的な時間的依存関係のモデリングと時間的畳み込みの柔軟性の制限は、これらのモデルの可能性を制限する。
近年, フレキシブルかつ強いシーケンスモデリング能力を持つトランスフォーマーモデルが様々なタスクに応用されている。
しかしながら、インダクティブバイアスの欠如と長いビデオシーケンスの処理の非効率は、アクションセグメンテーションにおけるトランスフォーマーの適用を制限する。
本稿では,U-Netアーキテクチャを組み込んで,時間的畳み込みを伴わない純粋トランスフォーマーモデルの設計を行う。
U-Transformerアーキテクチャは、隣接するフレームが同じクラスに属する可能性が高い誘導バイアスを導入しながら複雑さを減少させるが、粗い解像度の導入は境界の誤分類をもたらす。
境界フレームとその隣接フレーム間の類似度分布は、その境界フレームがアクションセグメントの開始か終了かに依存することを観測する。
そこで我々は,注意モジュールからフレーム間の類似度スコアの分布に基づく境界認識損失を提案し,境界認識能力を向上させる。
広範な実験により,モデルの有効性が示された。
関連論文リスト
- Boundary-Aware Proposal Generation Method for Temporal Action
Localization [23.79359799496947]
TALは、トリミングされていないビデオの中で、アクションのカテゴリと時間的境界を見つけることを目的としている。
ほとんどの TAL 法は時間境界ではなく行動ラベルに敏感な行動認識モデルに大きく依存している。
コントラスト学習を用いた境界認識提案生成(BAPG)手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T01:41:09Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - Temporal Transformer Networks with Self-Supervision for Action
Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文 参考訳(メタデータ) (2021-12-14T12:53:53Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。