論文の概要: Dual-Stream Alignment for Action Segmentation
- arxiv url: http://arxiv.org/abs/2510.07652v1
- Date: Thu, 09 Oct 2025 00:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.797595
- Title: Dual-Stream Alignment for Action Segmentation
- Title(参考訳): アクションセグメンテーションのためのデュアルストリームアライメント
- Authors: Harshala Gammulle, Clinton Fookes, Sridha Sridharan, Simon Denman,
- Abstract要約: アクションセグメンテーションは、連続したビデオストリームで特定のアクションがいつどこで発生するかを特定する。
最近の研究は、アクション性能を向上させるためにアクションワイドな特徴を学習する2ストリーム方式に移行している。
本稿では,Dual-Stream Alignment Network (DSA Net)を提案する。
- 参考スコア(独自算出の注目度): 37.24437077331131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action segmentation is a challenging yet active research area that involves identifying when and where specific actions occur in continuous video streams. Most existing work has focused on single-stream approaches that model the spatio- temporal aspects of frame sequences. However, recent research has shifted toward two-stream methods that learn action-wise features to enhance action segmentation performance. In this work, we propose the Dual-Stream Alignment Network (DSA Net) and investigate the impact of incorporating a second stream of learned action features to guide segmentation by capturing both action and action-transition cues. Communication between the two streams is facilitated by a Temporal Context (TC) block, which fuses complementary information using cross- attention and Quantum-based Action-Guided Modulation (Q- ActGM), enhancing the expressive power of the fused features. To the best of our knowledge, this is the first study to introduce a hybrid quantum-classical machine learning framework for action segmentation. Our primary objective is for the two streams (frame-wise and action-wise) to learn a shared feature space through feature alignment. This is encouraged by the proposed Dual-Stream Alignment Loss, which comprises three components: relational consistency, cross-level contrastive, and cycle-consistency reconstruction losses. Following prior work, we evaluate DSA Net on several diverse benchmark datasets: GTEA, Breakfast, 50Salads, and EgoProcel. We further demonstrate the effectiveness of each component through extensive ablation studies. Notably, DSA Net achieves state-of-the-art performance, significantly outperforming existing
- Abstract(参考訳): アクションセグメンテーション(Action segmentation)は、連続したビデオストリームで特定のアクションがいつどこで発生するかを特定することを含む、難しいが活発な研究分野である。
既存の作業の多くは、フレームシーケンスの時空間的側面をモデル化するシングルストリームアプローチに重点を置いている。
しかし、近年の研究では、アクションセグメンテーション性能を向上させるために、アクションワイドな特徴を学習する2ストリーム方式に移行している。
そこで本研究では,Dual-Stream Alignment Network (DSA Net) を提案するとともに,動作と動作遷移の両方をキャプチャしてセグメンテーションをガイドする第2の動作特徴を組み込むことによる影響について検討する。
この2つのストリーム間の通信は、クロスアテンションと量子ベースのアクションガイド変調(Q- ActGM)を用いて相補的な情報を融合し、融合した特徴の表現力を向上する時間的コンテキスト(TC)ブロックによって促進される。
我々の知る限りでは、アクションセグメンテーションのためのハイブリッド量子古典機械学習フレームワークを導入する最初の研究である。
私たちの主な目的は、2つのストリーム(フレームワイドとアクションワイド)を機能アライメントを通じて共有機能空間を学ぶことです。
これはDual-Stream Alignment Lossによって奨励され、リレーショナル一貫性、クロスレベルコントラスト、サイクル一貫性再構築損失の3つのコンポーネントから構成される。
以前の作業に続いて、GTEA、Breakfast、50Salads、EgoProcelという、さまざまなベンチマークデータセットでDSA Netを評価しました。
さらに,広範囲なアブレーション研究を通じて,各成分の有効性を実証する。
特に、DSA Netは最先端のパフォーマンスを実現し、既存のパフォーマンスを大きく上回っている。
関連論文リスト
- Reframing Dense Action Detection (RefDense): A Paradigm Shift in Problem Solving & a Novel Optimization Strategy [23.100602876056165]
時間的重複とクラスオーバーラップという2つの課題に対処するには複雑すぎると我々は主張する。
本稿では, 密接な曖昧な部分概念を検出するために, 密接なあいまいな動作を検出するタスクを分解することを提案する。
我々の実験は、最先端手法に対するアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2025-01-30T17:20:42Z) - ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation [66.8640112000444]
時間的アクションセグメンテーションと長期的アクション予測は、ビデオにおけるアクションの時間的分析のための一般的なビジョンタスクである。
本稿では,アクトフュージョンと呼ばれる統合拡散モデルを用いて,アクションセグメンテーションとアクション予測という2つの課題に取り組む。
我々は,映像フレームの後半部分を見えないものとして隠蔽し,学習可能なトークンをこれらのフレームに置き換えて,目に見えない未来を予測する,新たな予測マスク戦略を導入する。
論文 参考訳(メタデータ) (2024-12-05T17:12:35Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - ACGNet: Action Complement Graph Network for Weakly-supervised Temporal
Action Localization [39.377289930528555]
教師なしビデオにおける弱いトリミング時間的行動ローカライゼーション(WTAL)は,ビデオレベルラベルのみが利用可能であるため,実用的ではあるが困難な課題となっている。
既存のアプローチは、通常、空間的不完全性と時間的不整合に苦しむ、既成のセグメントレベルの特徴を利用する。
本稿では,単純なグラフ畳み込みネットワークを用いてセグメントレベルの表現を強化することで,この問題に対処する。
論文 参考訳(メタデータ) (2021-12-21T04:18:44Z) - Graph Convolutional Module for Temporal Action Localization in Videos [142.5947904572949]
アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:36:59Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Two-Stream AMTnet for Action Detection [12.581710073789848]
本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
論文 参考訳(メタデータ) (2020-04-03T12:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。