論文の概要: BID: Boundary-Interior Decoding for Unsupervised Temporal Action
Localization Pre-Trainin
- arxiv url: http://arxiv.org/abs/2403.07354v1
- Date: Tue, 12 Mar 2024 06:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:43:43.751977
- Title: BID: Boundary-Interior Decoding for Unsupervised Temporal Action
Localization Pre-Trainin
- Title(参考訳): BID:unsupervised Temporal Action Localization Pre-Traininのための境界内デコード
- Authors: Qihang Fang and Chengcheng Tang and Shugao Ma and Yanchao Yang
- Abstract要約: 本稿では,骨格に基づく動作シーケンスを意味論的に意味のある事前動作セグメントに分割する,教師なし事前学習フレームワークを提案する。
事前学習ネットワークを少量のアノテートデータで微調整することにより、SOTA法よりも大きなマージンで性能が向上することを示す。
- 参考スコア(独自算出の注目度): 13.273908640951252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based motion representations are robust for action localization and
understanding for their invariance to perspective, lighting, and occlusion,
compared with images. Yet, they are often ambiguous and incomplete when taken
out of context, even for human annotators. As infants discern gestures before
associating them with words, actions can be conceptualized before being
grounded with labels. Therefore, we propose the first unsupervised pre-training
framework, Boundary-Interior Decoding (BID), that partitions a skeleton-based
motion sequence into discovered semantically meaningful pre-action segments. By
fine-tuning our pre-training network with a small number of annotated data, we
show results out-performing SOTA methods by a large margin.
- Abstract(参考訳): スケルトンベースの運動表現は、画像と比較して、視点、照明、咬合に対する不変性に対する行動局在と理解にロバストである。
しかし、人間の注釈家でさえ、文脈から外すと曖昧で不完全であることが多い。
幼児は言葉に関連付ける前に身振りを識別するので、行動はラベルを付ける前に概念化することができる。
そこで本研究では,スケルトンに基づく動作シーケンスを意味的に有意味な前動作セグメントに分割した最初の教師なし事前学習フレームワークであるバウンダリinterior decoding (bid)を提案する。
事前学習ネットワークを少量のアノテートデータで微調整することにより、SOTA法よりも大きなマージンで性能が向上することを示す。
関連論文リスト
- FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - Causal Unsupervised Semantic Segmentation [60.178274138753174]
教師なしセマンティックセグメンテーションは、人間のラベル付きアノテーションなしで高品質なセマンティックセマンティックセグメンテーションを実現することを目的としている。
本稿では、因果推論からの洞察を活用する新しいフレームワークCAUSE(CAusal Unsupervised Semantic sEgmentation)を提案する。
論文 参考訳(メタデータ) (2023-10-11T10:54:44Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - ZScribbleSeg: Zen and the Art of Scribble Supervised Medical Image
Segmentation [16.188681108101196]
弱い教師付きセグメンテーションにのみスクリブルアノテーションを活用することを提案する。
既存のソリューションは主に注釈付き領域でのみ計算された選択的損失を利用する。
空間的関係と形状を事前にエンコードする正規化項を導入する。
我々は、ZScribbleSegと表記される統合フレームワークに、効率的なスクリブル監視を前者と統合する。
論文 参考訳(メタデータ) (2023-01-12T09:00:40Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。