Fugu-MT 論文翻訳(概要): Synchronization is All You Need: Exocentric-to-Egocentric Transfer for Temporal Action Segmentation with Unlabeled Synchronized Video Pairs

論文の概要: Synchronization is All You Need: Exocentric-to-Egocentric Transfer for Temporal Action Segmentation with Unlabeled Synchronized Video Pairs

arxiv url: http://arxiv.org/abs/2312.02638v2
Date: Thu, 14 Mar 2024 11:34:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 02:02:44.509339
Title: Synchronization is All You Need: Exocentric-to-Egocentric Transfer for Temporal Action Segmentation with Unlabeled Synchronized Video Pairs
Title（参考訳）: シンクロナイゼーションは必要なものすべて:非ラベル同期ビデオペアを用いた時間的アクションセグメンテーションのためのExocentric-to-Egocentric Transfer
Authors: Camillo Quattrocchi, Antonino Furnari, Daniele Di Mauro, Mario Valerio Giuffrida, Giovanni Maria Farinella,
Abstract要約: 我々は、当初、遠心型(固定型)カメラ用に設計された時間的アクションセグメンテーションシステムを、エゴセントリックなシナリオに転送する問題を考える。本稿では,既存のラベル付きエキソセントリックビデオを活用する新しい手法と,ラベルなし,同期化されたエキソセントリックビデオの新たなセットを提案する。 EgoExo4Dベンチマークでは,編集スコアも+3.32向上した。
参考スコア（独自算出の注目度）: 14.61648563523105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of transferring a temporal action segmentation system initially designed for exocentric (fixed) cameras to an egocentric scenario, where wearable cameras capture video data. The conventional supervised approach requires the collection and labeling of a new set of egocentric videos to adapt the model, which is costly and time-consuming. Instead, we propose a novel methodology which performs the adaptation leveraging existing labeled exocentric videos and a new set of unlabeled, synchronized exocentric-egocentric video pairs, for which temporal action segmentation annotations do not need to be collected. We implement the proposed methodology with an approach based on knowledge distillation, which we investigate both at the feature and Temporal Action Segmentation model level. Experiments on Assembly101 and EgoExo4D demonstrate the effectiveness of the proposed method against classic unsupervised domain adaptation and temporal alignment approaches. Without bells and whistles, our best model performs on par with supervised approaches trained on labeled egocentric data, without ever seeing a single egocentric label, achieving a +15.99 improvement in the edit score (28.59 vs 12.60) on the Assembly101 dataset compared to a baseline model trained solely on exocentric data. In similar settings, our method also improves edit score by +3.32 on the challenging EgoExo4D benchmark.
Abstract（参考訳）: 我々は、当初、外向型(固定型)カメラ用に設計された時間的アクションセグメンテーションシステムを、ウェアラブルカメラが映像データをキャプチャするエゴセントリックなシナリオに転送する問題を考える。従来の教師付きアプローチでは、コストと時間を要するモデルに適応するために、新しいエゴセントリックなビデオのコレクションとラベリングが必要となる。そこで本稿では,既存のラベル付きエキソセントリックビデオと,時間的アクションセグメンテーションアノテーションを収集する必要のない,非ラベル付き,同期型エキソセントリックビデオペアを新たに導入する手法を提案する。提案手法を知識蒸留に基づく手法を用いて実装し,特徴量と時間行動セグメンテーションモデルの両方について検討する。 Assembly101とEgoExo4Dの実験は、従来の教師なし領域適応と時間的アライメントアプローチに対する提案手法の有効性を実証している。我々の最良のモデルは、ラベル付きエゴセントリックなデータに基づいてトレーニングされた教師付きアプローチと同等に動作し、単一のエゴセントリックなラベルを見ることなく、アセンブリ101データセットの編集スコア(28.59対12.60)を、エゴセントリックなデータのみに基づいてトレーニングされたベースラインモデルと比較して+15.99改善した。同様の設定では、EgoExo4Dベンチマークの編集スコアを+3.32に改善する。

関連論文リスト

X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文参考訳（メタデータ） (2024-03-28T19:45:35Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-08T19:54:08Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文参考訳（メタデータ） (2023-04-13T22:20:54Z)
Turning to a Teacher for Timestamp Supervised Temporal Action Segmentation [27.735478880660164]
本稿では,時間スタンプによる時間的動作分割のための新しいフレームワークを提案する。本稿では,モデル最適化のプロセスの安定化を支援するために,セグメンテーションモデルに平行な教師モデルを提案する。提案手法は最先端の手法より優れており,アノテーションコストがはるかに低い完全教師付き手法に対してコンパロブルに機能する。
論文参考訳（メタデータ） (2022-07-02T02:00:55Z)
Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。 TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。 TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2021-02-09T19:49:33Z)
Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。 i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文参考訳（メタデータ） (2020-06-22T17:55:59Z)
Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文参考訳（メタデータ） (2020-03-26T23:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。