論文の概要: Synchronization is All You Need: Exocentric-to-Egocentric Transfer for
Temporal Action Segmentation with Unlabeled Synchronized Video Pairs
- arxiv url: http://arxiv.org/abs/2312.02638v1
- Date: Tue, 5 Dec 2023 10:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:05:33.062068
- Title: Synchronization is All You Need: Exocentric-to-Egocentric Transfer for
Temporal Action Segmentation with Unlabeled Synchronized Video Pairs
- Title(参考訳): 非ラベル同期ビデオペアを用いた時間的アクションセグメンテーションのためのexocentric-to-egocentric transfer
- Authors: Camillo Quattrocchi, Antonino Furnari, Daniele Di Mauro, Mario Valerio
Giuffrida, Giovanni Maria Farinella
- Abstract要約: 本稿では,既存のラベル付きエキソセントリックビデオを活用する新しい手法と,ラベルなし,同期化されたエキソセントリックビデオの新たなセットを提案する。
その結果、従来の教師なし領域適応と時間的シーケンスアライメントアプローチに対する提案手法の有効性と有効性を示した。
- 参考スコア(独自算出の注目度): 15.68123747711594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of transferring a temporal action segmentation system
initially designed for exocentric (fixed) cameras to an egocentric scenario,
where wearable cameras capture video data. The conventional supervised approach
requires the collection and labeling of a new set of egocentric videos to adapt
the model, which is costly and time-consuming. Instead, we propose a novel
methodology which performs the adaptation leveraging existing labeled
exocentric videos and a new set of unlabeled, synchronized
exocentric-egocentric video pairs, for which temporal action segmentation
annotations do not need to be collected. We implement the proposed methodology
with an approach based on knowledge distillation, which we investigate both at
the feature and model level. To evaluate our approach, we introduce a new
benchmark based on the Assembly101 dataset. Results demonstrate the feasibility
and effectiveness of the proposed method against classic unsupervised domain
adaptation and temporal sequence alignment approaches. Remarkably, without
bells and whistles, our best model performs on par with supervised approaches
trained on labeled egocentric data, without ever seeing a single egocentric
label, achieving a +15.99% (28.59% vs 12.60%) improvement in the edit score on
the Assembly101 dataset compared to a baseline model trained solely on
exocentric data.
- Abstract(参考訳): ウェアラブルカメラがビデオデータをキャプチャするエゴセントリックなシナリオに、当初エキソセントリックな(固定された)カメラ用に設計された時間的アクションセグメンテーションシステムを移行する問題を考える。
従来の教師付きアプローチでは、コストと時間を要するモデルに適応するために、新しいエゴセントリックなビデオのコレクションとラベリングが必要となる。
そこで本稿では,既存のラベル付きエキソセントリックビデオと,時間的アクションセグメンテーションアノテーションを収集する必要のない,非ラベル付き,同期型エキソセントリックビデオペアを新たに導入する手法を提案する。
提案手法を知識蒸留に基づくアプローチで実装し, 特徴量とモデル値の両方について検討した。
提案手法を評価するために,アセンブリ101データセットに基づく新しいベンチマークを導入する。
従来の非教師なし領域適応法と時間系列アライメント法に対する提案手法の有効性と有効性を示す。
驚くべきことに、私たちの最良のモデルは、ラベル付きエゴセントリックデータでトレーニングされた教師付きアプローチと同等に動作し、単一のエゴセントリックラベルを見ることなく、アセンブリ101データセットの編集スコアが、エクソセントリックデータのみでトレーニングされたベースラインモデルと比較して、+15.99%(28.59%対12.60%)向上しました。
関連論文リスト
- X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Turning to a Teacher for Timestamp Supervised Temporal Action
Segmentation [27.735478880660164]
本稿では,時間スタンプによる時間的動作分割のための新しいフレームワークを提案する。
本稿では,モデル最適化のプロセスの安定化を支援するために,セグメンテーションモデルに平行な教師モデルを提案する。
提案手法は最先端の手法より優れており,アノテーションコストがはるかに低い完全教師付き手法に対してコンパロブルに機能する。
論文 参考訳(メタデータ) (2022-07-02T02:00:55Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。