論文の概要: Towards Generalizing Temporal Action Segmentation to Unseen Views
- arxiv url: http://arxiv.org/abs/2504.02512v1
- Date: Thu, 03 Apr 2025 11:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:22.380512
- Title: Towards Generalizing Temporal Action Segmentation to Unseen Views
- Title(参考訳): 時間的行動セグメンテーションの未確認視点への一般化に向けて
- Authors: Emad Bahrami, Olga Zatsarynna, Gianpiero Francesca, Juergen Gall,
- Abstract要約: 我々は、トレーニング中にモデルを評価するためのカメラビューが利用できない、見えないビューアクションセグメンテーションのためのプロトコルを定義する。
本稿では,この課題に対処する時間的行動セグメンテーションのアプローチを提案する。
シーケンス損失とアクション損失を導入し、異なるビューをまたいだ一貫したビデオとアクションの表現を容易にする。
- 参考スコア(独自算出の注目度): 14.764631810298809
- License:
- Abstract: While there has been substantial progress in temporal action segmentation, the challenge to generalize to unseen views remains unaddressed. Hence, we define a protocol for unseen view action segmentation where camera views for evaluating the model are unavailable during training. This includes changing from top-frontal views to a side view or even more challenging from exocentric to egocentric views. Furthermore, we present an approach for temporal action segmentation that tackles this challenge. Our approach leverages a shared representation at both the sequence and segment levels to reduce the impact of view differences during training. We achieve this by introducing a sequence loss and an action loss, which together facilitate consistent video and action representations across different views. The evaluation on the Assembly101, IkeaASM, and EgoExoLearn datasets demonstrate significant improvements, with a 12.8% increase in F1@50 for unseen exocentric views and a substantial 54% improvement for unseen egocentric views.
- Abstract(参考訳): 時間的行動のセグメンテーションにはかなりの進歩があったが、目に見えない視点に一般化するという課題はいまだに未解決のままである。
したがって、トレーニング中にモデルを評価するためのカメラビューが利用できない、見えないビューアクションセグメンテーションのためのプロトコルを定義する。
これには、トップフロントのビューからサイドビューに変更することや、エゴセントリックなビューからエゴセントリックなビューにさらに挑戦することが含まれる。
さらに,この課題に対処する時間的行動セグメンテーションのアプローチを提案する。
提案手法では、シーケンスレベルとセグメントレベルの共有表現を利用して、トレーニング中のビュー差の影響を低減する。
シーケンス損失とアクション損失を導入し、異なるビューをまたいだ一貫したビデオとアクションの表現を容易にする。
Assembly101、IkeaASM、EgoExoLearnのデータセットに対する評価は、目に見えない自我中心のビューではF1@50が12.8%増加し、目に見えない自我中心のビューでは54%改善した。
関連論文リスト
- ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation [66.8640112000444]
時間的アクションセグメンテーションと長期的アクション予測は、ビデオにおけるアクションの時間的分析のための一般的なビジョンタスクである。
本稿では,アクトフュージョンと呼ばれる統合拡散モデルを用いて,アクションセグメンテーションとアクション予測という2つの課題に取り組む。
我々は,映像フレームの後半部分を見えないものとして隠蔽し,学習可能なトークンをこれらのフレームに置き換えて,目に見えない未来を予測する,新たな予測マスク戦略を導入する。
論文 参考訳(メタデータ) (2024-12-05T17:12:35Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective [13.776455033015216]
本稿では,アクション認識のための新しいクロスビュー学習手法を提案する。
まず,トランスフォーマーの自己注意機構に幾何学的制約を新たに導入する。
そこで本稿では, 自己意識のメカニズムを学習し, 知識を視点間で伝達するために, 自己意識を学習するために, 未確認のクロスビューデータに基づいて学習した, 新たな自己意識の喪失を提案する。
論文 参考訳(メタデータ) (2023-05-25T04:14:49Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - On Evaluating Weakly Supervised Action Segmentation Methods [79.42955857919497]
本研究は、弱い教師付き行動セグメント化アプローチの使用と評価の2つの側面に焦点を当てる。
それぞれの手法をBreakfastデータセット上で5回トレーニングし、平均および標準偏差を提供する。
実験の結果,これらの反復に対する標準偏差は1~2.5%であり,異なるアプローチの比較に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2020-05-19T20:30:31Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。