論文の概要: Distill and Collect for Semi-Supervised Temporal Action Segmentation
- arxiv url: http://arxiv.org/abs/2211.01311v2
- Date: Thu, 3 Nov 2022 17:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 11:46:44.476516
- Title: Distill and Collect for Semi-Supervised Temporal Action Segmentation
- Title(参考訳): 半監督的時間的行動セグメンテーションのための蒸留と収集
- Authors: Sovan Biswas, Anthony Rhodes, Ramesh Manuvinakurike, Giuseppe Raffa,
Richard Beckwith
- Abstract要約: 本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用する時間的行動分割タスクを提案する。
提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。
また,本モデルでは,後に時間的制約として使用されるアクション順序を予測し,無注釈ビデオの監督の欠如に対処するため,フレームラベルを推定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent temporal action segmentation approaches need frame annotations during
training to be effective. These annotations are very expensive and
time-consuming to obtain. This limits their performances when only limited
annotated data is available. In contrast, we can easily collect a large corpus
of in-domain unannotated videos by scavenging through the internet. Thus, this
paper proposes an approach for the temporal action segmentation task that can
simultaneously leverage knowledge from annotated and unannotated video
sequences. Our approach uses multi-stream distillation that repeatedly refines
and finally combines their frame predictions. Our model also predicts the
action order, which is later used as a temporal constraint while estimating
frames labels to counter the lack of supervision for unannotated videos. In the
end, our evaluation of the proposed approach on two different datasets
demonstrates its capability to achieve comparable performance to the full
supervision despite limited annotation.
- Abstract(参考訳): 最近の時間的アクションセグメンテーションアプローチでは、トレーニング中のフレームアノテーションが有効である必要がある。
これらのアノテーションは非常に高価で入手に時間がかかる。
これにより、限定されたアノテートデータしか利用できない場合のパフォーマンスが制限される。
対照的に、インターネットをスキャビングすることで、ドメイン内未注釈ビデオの大規模なコーパスを簡単に収集できる。
そこで本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用できる時間的行動分割タスクを提案する。
提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。
また,提案手法は時間制約として使用される動作順序を予測し,フレームラベルを推定し,無記名ビデオに対する監督の欠如を解消する。
最後に、2つの異なるデータセットに対する提案手法の評価により、限定されたアノテーションにもかかわらず、完全な監視と同等のパフォーマンスを実現する能力が示される。
関連論文リスト
- TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Robust Action Segmentation from Timestamp Supervision [18.671808549019833]
アクションセグメンテーション(Action segmentation)は、未トリミングビデオの各フレームに対するアクションラベルを予測するタスクである。
タイムスタンプの監督は、すべてのフレームに注釈をつけるよりも、1アクションあたりのタイムスタンプを1つ取得する方がコストがかかるため、期待できるような弱い監督方法である。
私たちは、他のアプローチやさまざまなベースラインと比べて、アノテーションの欠如に対して、我々のアプローチがより堅牢であることを示します。
論文 参考訳(メタデータ) (2022-10-12T18:01:14Z) - A Generalized & Robust Framework For Timestamp Supervision in Temporal
Action Segmentation [79.436224998992]
時間的アクションセグメンテーションでは、Timestampの監督はビデオシーケンスごとにわずかにラベル付きフレームを必要とする。
本稿では,未ラベルフレームのラベルの不確実性を利用した期待最大化に基づく新しい手法を提案する。
提案手法はSOTA結果を生成し,複数のメトリクスやデータセットの完全教師付き設定を超えている。
論文 参考訳(メタデータ) (2022-07-20T18:30:48Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Temporal Action Segmentation from Timestamp Supervision [25.49797678477498]
時間的行動分節タスクのタイムスタンプ管理を導入する。
タイムスタンプは弱い教師のアプローチに匹敵するアノテーションを必要とする。
提案手法では,モデル出力とアノテーション付きタイムスタンプを用いてフレームワイドラベルを生成する。
論文 参考訳(メタデータ) (2021-03-11T13:52:41Z) - Efficient video annotation with visual interpolation and frame selection
guidance [0.0]
バウンディングボックスを備えたジェネリックビデオアノテーションの統一フレームワークを紹介します。
提案手法は,一般的な線形手法に比べて実測アノテーション時間を50%短縮することを示す。
論文 参考訳(メタデータ) (2020-12-23T09:31:40Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。