論文の概要: Joint Self-Supervised Video Alignment and Action Segmentation
- arxiv url: http://arxiv.org/abs/2503.16832v1
- Date: Fri, 21 Mar 2025 04:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:56.411130
- Title: Joint Self-Supervised Video Alignment and Action Segmentation
- Title(参考訳): 自己監督型ビデオアライメントとアクションセグメンテーション
- Authors: Ali Shah Ali, Syed Ahmed Mahmood, Mubin Saeed, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran,
- Abstract要約: 我々は,統合された最適なトランスポートフレームワークに基づく,自己監督型ビデオアライメントとアクションセグメンテーションを同時に行うための新しいアプローチを提案する。
まず, 自己監督型ビデオアライメントの実現に向けて, 構造的事前条件で, 融合したGromov-Wasserstein最適輸送定式化を開発する。
我々は、共同で監督されたビデオアライメントとアクションセグメンテーションのための統合された最適なトランスポートフレームワークを提案することによって、アプローチを拡張した。
- 参考スコア(独自算出の注目度): 6.734637459963131
- License:
- Abstract: We introduce a novel approach for simultaneous self-supervised video alignment and action segmentation based on a unified optimal transport framework. In particular, we first tackle self-supervised video alignment by developing a fused Gromov-Wasserstein optimal transport formulation with a structural prior, which trains efficiently on GPUs and needs only a few iterations for solving the optimal transport problem. Our single-task method achieves the state-of-the-art performance on multiple video alignment benchmarks and outperforms VAVA, which relies on a traditional Kantorovich optimal transport formulation with an optimality prior. Furthermore, we extend our approach by proposing a unified optimal transport framework for joint self-supervised video alignment and action segmentation, which requires training and storing a single model and saves both time and memory consumption as compared to two different single-task models. Extensive evaluations on several video alignment and action segmentation datasets demonstrate that our multi-task method achieves comparable video alignment yet superior action segmentation results over previous methods in video alignment and action segmentation respectively. Finally, to the best of our knowledge, this is the first work to unify video alignment and action segmentation into a single model.
- Abstract(参考訳): 我々は,統合された最適なトランスポートフレームワークに基づく,自己監督型ビデオアライメントとアクションセグメンテーションを同時に行うための新しいアプローチを提案する。
特に,我々はまず,GPU上で効率よく訓練し,最適輸送問題を解決するためにほんの数イテレーションしか必要としない構造的先行構造を持つ,融合したGromov-Wasserstein最適輸送定式化を開発することで,自己監督型ビデオアライメントに取り組む。
複数のビデオアライメントベンチマークとVAVAの性能は,従来のカントロビッチ最適輸送形式に依存したVAVAよりも優れている。
さらに,2つの異なる単一タスクモデルと比較して,単一モデルのトレーニングと記憶が必要であり,時間とメモリ消費を節約できるような,統合的自己監督型ビデオアライメントとアクションセグメンテーションのための統一されたトランスポートフレームワークを提案することで,我々のアプローチを拡張した。
複数のビデオアライメントとアクションセグメンテーションデータセットの大規模な評価により、我々のマルチタスク手法は、ビデオアライメントとアクションセグメンテーションにおいて、従来の手法よりも優れたアクションセグメンテーション結果が得られることを示した。
最後に、私たちの知る限りでは、ビデオアライメントとアクションセグメンテーションを単一のモデルに統合する最初の試みである。
関連論文リスト
- Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation [31.622109513774635]
本稿では,長編未編集ビデオに対するアクションセグメンテーションタスクに対する新しいアプローチを提案する。
グロモフ・ワッサーシュタイン問題に先立って時間的一貫性を符号化することにより、時間的に一貫したセグメンテーションをデコードすることができる。
本手法では,ビデオの時間的整合性を達成するための動作順序を知る必要はない。
論文 参考訳(メタデータ) (2024-04-01T22:53:47Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic
Video Segmentation [10.82074185158027]
撮影用長ビデオセグメンテーションのためのマルチモーダルアライメント(MultimodalalignedmEnt aGregation and distillAtion,MEGA)を提案する。
可変長と異なるモードの入力をアライメント位置符号化で粗いアライメントする。
MEGAは、モダリティ間でラベルを同期し、転送するために、新しい対照的な損失を採用しており、ビデオショット上のラベル付きシナプス文からのアクセグメンテーションを可能にしている。
論文 参考訳(メタデータ) (2023-08-22T04:23:59Z) - Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文 参考訳(メタデータ) (2022-10-10T14:27:10Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。
提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文 参考訳(メタデータ) (2020-04-07T09:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。