論文の概要: Efficient Temporal Action Segmentation via Boundary-aware Query Voting
- arxiv url: http://arxiv.org/abs/2405.15995v1
- Date: Sat, 25 May 2024 00:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:39:22.735368
- Title: Efficient Temporal Action Segmentation via Boundary-aware Query Voting
- Title(参考訳): 境界認識型クエリ投票による時間的行動分割の効率化
- Authors: Peiyao Wang, Yuewei Lin, Erik Blasch, Jie Wei, Haibin Ling,
- Abstract要約: BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 51.92693641176378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the performance of Temporal Action Segmentation (TAS) has improved in recent years, achieving promising results often comes with a high computational cost due to dense inputs, complex model structures, and resource-intensive post-processing requirements. To improve the efficiency while keeping the performance, we present a novel perspective centered on per-segment classification. By harnessing the capabilities of Transformers, we tokenize each video segment as an instance token, endowed with intrinsic instance segmentation. To realize efficient action segmentation, we introduce BaFormer, a boundary-aware Transformer network. It employs instance queries for instance segmentation and a global query for class-agnostic boundary prediction, yielding continuous segment proposals. During inference, BaFormer employs a simple yet effective voting strategy to classify boundary-wise segments based on instance segmentation. Remarkably, as a single-stage approach, BaFormer significantly reduces the computational costs, utilizing only 6% of the running time compared to state-of-the-art method DiffAct, while producing better or comparable accuracy over several popular benchmarks. The code for this project is publicly available at https://github.com/peiyao-w/BaFormer.
- Abstract(参考訳): 近年,TAS(Temporal Action Segmentation)の性能は向上しているが,高密度入力や複雑なモデル構造,リソース集約的な後処理要求などにより,高い計算コストが伴う場合が多い。
性能を保ちながら効率を向上させるために,セグメントごとの分類に着目した新しい視点を提案する。
Transformerの機能を利用することで、各ビデオセグメントに固有のインスタンスセグメンテーションを付与したインスタンストークンとしてトークン化します。
効率的なアクションセグメンテーションを実現するために,バウンダリ対応トランスフォーマーネットワークであるBaFormerを導入する。
インスタンスセグメンテーションのインスタンスクエリと、クラスに依存しない境界予測のためのグローバルクエリを使用して、連続的なセグメント提案を生成する。
推論の間、BaFormerは単純なが効果的な投票戦略を使用して、インスタンスのセグメンテーションに基づいて境界線セグメントを分類する。
注目すべきは、単一ステージのアプローチとして、BaFormerは、最先端のDiffActと比較して、実行時間の6%しか利用せず、いくつかの一般的なベンチマークよりも優れた、あるいは同等の精度で計算コストを大幅に削減することである。
このプロジェクトのコードはhttps://github.com/peiyao-w/BaFormer.comで公開されている。
関連論文リスト
- Label-efficient Segmentation via Affinity Propagation [27.016747627689288]
ラベル効率のよいスパースアノテーションを用いた弱教師付きセグメンテーションは、手間のかかるピクセルワイドラベリングプロセスのコストを削減するために研究の注目を集めている。
親和性モデリングを親和性伝播過程として定式化し、局所的および大域的親和性項を提案して、正確な擬似ラベルを生成する。
計算コストを大幅に削減する効率的なアルゴリズムも開発されている。
論文 参考訳(メタデータ) (2023-10-16T15:54:09Z) - BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - EdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided
Flow [5.696221390328458]
We propose EdgeFlow, a novel architecture that fully use a interactive information of user clicks with edge-guided flow。
提案手法は,後処理や反復最適化の手法を使わずに,最先端の性能を実現する。
提案手法により,実用的なデータアノテーションタスクのための効率的な対話型セグメンテーションツールを開発した。
論文 参考訳(メタデータ) (2021-09-20T10:07:07Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。