論文の概要: Enhancing Transformer Backbone for Egocentric Video Action Segmentation
- arxiv url: http://arxiv.org/abs/2305.11365v2
- Date: Tue, 23 May 2023 20:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:44:29.761309
- Title: Enhancing Transformer Backbone for Egocentric Video Action Segmentation
- Title(参考訳): エゴセントリックビデオアクションセグメンテーションのためのトランスフォーマーバックボーンの強化
- Authors: Sakib Reza, Balaji Sundareshan, Mohsen Moghaddam, Octavia Camps
- Abstract要約: 本稿では,アクションセグメンテーションのための最先端トランスフォーマを強化するための2つの新しいアイデアを提案する。
本稿では,局所的・グローバル的・局所的両方の文脈における階層的表現を適応的に捉えるための,二重拡張型アテンション機構を提案する。
また、最先端のビジュアル言語表現学習技術を用いて、トランスフォーマーのよりリッチでコンパクトな特徴を抽出する。
- 参考スコア(独自算出の注目度): 5.104181562775778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric temporal action segmentation in videos is a crucial task in
computer vision with applications in various fields such as mixed reality,
human behavior analysis, and robotics. Although recent research has utilized
advanced visual-language frameworks, transformers remain the backbone of action
segmentation models. Therefore, it is necessary to improve transformers to
enhance the robustness of action segmentation models. In this work, we propose
two novel ideas to enhance the state-of-the-art transformer for action
segmentation. First, we introduce a dual dilated attention mechanism to
adaptively capture hierarchical representations in both local-to-global and
global-to-local contexts. Second, we incorporate cross-connections between the
encoder and decoder blocks to prevent the loss of local context by the decoder.
We also utilize state-of-the-art visual-language representation learning
techniques to extract richer and more compact features for our transformer. Our
proposed approach outperforms other state-of-the-art methods on the Georgia
Tech Egocentric Activities (GTEA) and HOI4D Office Tools datasets, and we
validate our introduced components with ablation studies. The source code and
supplementary materials are publicly available on
https://www.sail-nu.com/dxformer.
- Abstract(参考訳): ビデオにおけるエゴセントリックな時間的アクションセグメンテーションは、混合現実、人間の行動分析、ロボット工学といった様々な分野の応用において、コンピュータビジョンにおいて重要なタスクである。
最近の研究は高度な視覚言語フレームワークを活用しているが、トランスフォーマーはアクションセグメンテーションモデルのバックボーンのままである。
したがって,アクションセグメンテーションモデルの堅牢性を高めるためには,トランスフォーマーの改良が必要である。
本稿では,アクションセグメンテーションのための最先端トランスフォーマーを強化するための2つの新しいアイデアを提案する。
まず,局所的・グローバル的・グローバル的両方の階層的表現を適応的に捉えるために,二重拡張注意機構を導入する。
第二に、デコーダとデコーダブロックの相互接続を組み込んで、デコーダによるローカルコンテキストの損失を防止する。
また、最先端のビジュアル言語表現学習技術を用いて、トランスフォーマーのよりリッチでコンパクトな特徴を抽出する。
提案手法は,ジョージア工科大学エゴセントリック活動(gtea)およびhoi4dオフィスツールデータセットにおける他の最先端手法よりも優れており,導入したコンポーネントをアブレーション研究で検証する。
ソースコードと補足資料はhttps://www.sail-nu.com/dxformer.comで公開されている。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Rethinking Attention Gated with Hybrid Dual Pyramid Transformer-CNN for Generalized Segmentation in Medical Imaging [17.07490339960335]
本稿では,強力なCNN-Transformerエンコーダを効率的に構築するためのハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。
我々のアプローチは、デュアルピラミッドハイブリッドエンコーダ内のアテンションゲートを利用する。
論文 参考訳(メタデータ) (2024-04-28T14:37:10Z) - Interactive Image Segmentation with Cross-Modality Vision Transformers [18.075338835513993]
クロスモダリティ・ビジョン・トランスフォーマーは、学習プロセスをより良くガイドするために相互情報を利用する。
障害発生回避の観点からの本手法の安定性は,実用的なアノテーションツールとしての可能性を示している。
論文 参考訳(メタデータ) (2023-07-05T13:29:05Z) - Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文 参考訳(メタデータ) (2023-07-02T10:29:35Z) - Transformer-Based Visual Segmentation: A Survey [118.01564082499948]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。
トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-04-19T17:59:02Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。