Fugu-MT 論文翻訳(概要): Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment

論文の概要: Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment

arxiv url: http://arxiv.org/abs/2305.19478v1
Date: Wed, 31 May 2023 01:12:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 19:07:55.482470
Title: Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment
Title（参考訳）: 教師なしフレーム対セグメントアライメントによる順列認識アクションセグメンテーション
Authors: Quoc-Huy Tran, Ahmed Mehmood, Muhammad Ahmed, Muhammad Naufil, Anas Zafar, Andrey Konin, M. Zeeshan Zia
Abstract要約: 本稿では、教師なしアクティビティセグメンテーションのためのトランスフォーマーベースのフレームワークを提案する。フレームレベルのキューだけでなく、セグメントレベルのキューも使用する。我々の手法は、教師なしのアクティビティセグメンテーションにおける従来の手法と同等または優れたパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 8.076067288723133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a novel transformer-based framework for unsupervised activity segmentation which leverages not only frame-level cues but also segment-level cues. This is in contrast with previous methods which often rely on frame-level information only. Our approach begins with a frame-level prediction module which estimates framewise action classes via a transformer encoder. The frame-level prediction module is trained in an unsupervised manner via temporal optimal transport. To exploit segment-level information, we introduce a segment-level prediction module and a frame-to-segment alignment module. The former includes a transformer decoder for estimating video transcripts, while the latter matches frame-level features with segment-level features, yielding permutation-aware segmentation results. Moreover, inspired by temporal optimal transport, we develop simple-yet-effective pseudo labels for unsupervised training of the above modules. Our experiments on four public datasets, i.e., 50 Salads, YouTube Instructions, Breakfast, and Desktop Assembly show that our approach achieves comparable or better performance than previous methods in unsupervised activity segmentation.
Abstract（参考訳）: 本稿では,フレームレベルのキューだけでなくセグメントレベルのキューも活用した,教師なしアクティビティセグメンテーションのためのトランスフォーマティブベースフレームワークを提案する。これは、フレームレベルの情報のみに依存する従来の方法とは対照的である。我々のアプローチは、トランスフォーマーエンコーダを介してフレームワイズアクションクラスを推定するフレームレベル予測モジュールから始まる。フレームレベルの予測モジュールは、時間的最適輸送を介して教師なしの方法で訓練される。セグメントレベル情報を利用するため,セグメントレベル予測モジュールとフレーム間アライメントモジュールを導入する。前者はビデオの書き起こしを推定するトランスデコーダを含み、後者はフレームレベルの特徴とセグメントレベルの特徴をマッチさせ、順列対応のセグメンテーション結果が得られる。さらに,時間的最適移動に触発されて,上述のモジュールの教師なし学習のための単純イット有効擬似ラベルを開発した。 4つのパブリックデータセット、すなわち50のサラダ、youtubeのインストラクション、朝食、デスクトップアセンブリの実験では、教師なしアクティビティセグメンテーションにおける従来の方法と同等あるいは優れたパフォーマンスを達成しています。

関連論文リスト

CLOT: Closed Loop Optimal Transport for Unsupervised Action Segmentation [4.880243880711163]
教師なしのアクションセグメンテーションは、最近、最適なトランスポート(OT)ベースの方法であるASOTによってその限界を推し進めた。マルチレベル循環型特徴学習機構を備えた新しいOTベースのフレームワークであるClosed Loop Optimal Transport (CLOT)を提案する。
論文参考訳（メタデータ） (2025-07-04T12:42:34Z)
Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文参考訳（メタデータ） (2022-03-09T01:30:57Z)
Iterative Frame-Level Representation Learning And Classification For Semi-Supervised Temporal Action Segmentation [25.08516972520265]
時間的アクションセグメンテーションは、各フレームのアクションを(長い)ビデオシーケンスで分類する。時間的行動セグメント化のための第1の半教師付き手法を提案する。
論文参考訳（メタデータ） (2021-12-02T16:47:24Z)
Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。最近の作業の1つは、アクションクリックの監視フレームワークを構築している。同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文参考訳（メタデータ） (2021-11-24T12:02:52Z)
Segmental Contrastive Predictive Coding for Unsupervised Word Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文参考訳（メタデータ） (2021-06-03T23:12:05Z)
Unsupervised Action Segmentation with Self-supervised Feature Learning and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文参考訳（メタデータ） (2021-05-29T00:29:40Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)
Action Shuffle Alternating Learning for Unsupervised Action Segmentation [38.32743770719661]
我々は、正および負のアクションシーケンスを認識するためにRNNを訓練し、RNNの隠蔽層を新しいアクションレベルの特徴埋め込みとして捉えた。動作の監視ができないため、アクション長を明示的にモデル化したHMMを指定し、ViterbiアルゴリズムによるMAPアクションセグメンテーションを推論する。結果として生じるアクションセグメンテーションは、アクションレベルの機能埋め込みとHMMの更新を推定するための疑似根拠の真実として使用されます。
論文参考訳（メタデータ） (2021-04-05T18:58:57Z)
Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文参考訳（メタデータ） (2021-03-20T23:30:01Z)
Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。時間的情報を用いて、最小限の変更で迅速にフレームを識別する。フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文参考訳（メタデータ） (2020-12-21T19:40:17Z)
Learning Motion Flows for Semi-supervised Instrument Segmentation from Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2020-07-06T02:39:32Z)
Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文参考訳（メタデータ） (2020-07-03T10:32:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。