論文の概要: Pose-Aware Weakly-Supervised Action Segmentation
- arxiv url: http://arxiv.org/abs/2504.05700v1
- Date: Tue, 08 Apr 2025 05:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:50.776914
- Title: Pose-Aware Weakly-Supervised Action Segmentation
- Title(参考訳): Pose-Aware Weakly Supervised Action Segmentation
- Authors: Seth Z. Zhao, Reza Ghoddoosian, Isht Dwivedi, Nakul Agarwal, Behzad Dariush,
- Abstract要約: 我々は、推論における使用を省略しながら、トレーニング中にポーズの知識を取り入れた弱い教師付きフレームワークを導入する。
本稿では,アクション境界をより効果的に識別するために訓練されたフレームワーク全体の一部として,ポーズにインスパイアされたコントラスト損失を提案する。
提案手法は,代表的データセットに関する広範な実験を通じて検証され,長い指導ビデオのセグメンテーションにおいて,従来の最先端技術(SOTA)よりも優れていた。
- 参考スコア(独自算出の注目度): 11.154829751558006
- License:
- Abstract: Understanding human behavior is an important problem in the pursuit of visual intelligence. A challenge in this endeavor is the extensive and costly effort required to accurately label action segments. To address this issue, we consider learning methods that demand minimal supervision for segmentation of human actions in long instructional videos. Specifically, we introduce a weakly-supervised framework that uniquely incorporates pose knowledge during training while omitting its use during inference, thereby distilling pose knowledge pertinent to each action component. We propose a pose-inspired contrastive loss as a part of the whole weakly-supervised framework which is trained to distinguish action boundaries more effectively. Our approach, validated through extensive experiments on representative datasets, outperforms previous state-of-the-art (SOTA) in segmenting long instructional videos under both online and offline settings. Additionally, we demonstrate the framework's adaptability to various segmentation backbones and pose extractors across different datasets.
- Abstract(参考訳): 人間の行動を理解することは、視覚知性の追求において重要な問題である。
この取り組みにおける課題は、アクションセグメントを正確にラベル付けるのに必要な広範囲でコストのかかる労力である。
この問題に対処するために、長い指導ビデオにおいて、人間の行動の分節化を最小限に抑えることを求める学習方法を検討する。
具体的には、推論時に使用を省略しながら、トレーニング中にポーズ知識を独自に取り入れ、各アクションコンポーネントに関連するポーズ知識を抽出する弱い教師付きフレームワークを提案する。
動作境界をより効果的に識別するために訓練された、弱教師付きフレームワークの一部として、ポーズにインスパイアされたコントラスト損失を提案する。
我々のアプローチは、代表的データセットに関する広範な実験を通じて検証され、オンラインとオフラインの両方の設定下での長い指導ビデオのセグメンテーションにおいて、従来の最先端(SOTA)よりも優れています。
さらに、さまざまなセグメンテーションバックボーンへのフレームワークの適応性を実証し、異なるデータセット間で抽出子を合成する。
関連論文リスト
- The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Weakly-Supervised Online Action Segmentation in Multi-View Instructional
Videos [20.619236432228625]
動的プログラミングを用いて,オンラインストリーミングビデオをテスト時にセグメント化するためのフレームワークを提案する。
オンライン・オフライン離散損失(OODL)を導入し、セグメンテーション結果の時間的整合性を高めることにより、我々の枠組みを改善する。
論文 参考訳(メタデータ) (2022-03-24T19:27:56Z) - Adversarial Motion Modelling helps Semi-supervised Hand Pose Estimation [116.07661813869196]
そこで本稿では,非ラベルビデオに対人トレーニングとモーションモデリングのアイデアを組み合わせることを提案する。
本研究は,非ラベル映像系列の半教師あり学習により,逆方向が手ポーズ推定器の特性の向上につながることを示す。
このアプローチの主な利点は、ペアのトレーニングデータよりもはるかに容易に、未ペアのビデオとジョイントシーケンスデータを利用することができることです。
論文 参考訳(メタデータ) (2021-06-10T17:50:19Z) - Unsupervised Co-part Segmentation through Assembly [42.874278526843305]
画像からのコパートセグメンテーションのための教師なし学習手法を提案する。
我々はビデオに埋め込まれた動作情報を活用し、意味のある対象をセグメント化する潜在表現を明示的に抽出する。
提案手法は,多種多様なベンチマークにおける最先端のアプローチよりも優れた,有意義でコンパクトな部分分割を実現することができることを示す。
論文 参考訳(メタデータ) (2021-06-10T16:22:53Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - Learning to Segment Actions from Observation and Narration [56.99443314542545]
映像中の動作セグメント化に対して,ナレーションによって誘導されるタスク構造の生成セグメントモデルを適用する。
我々は、トレーニング中にアクションラベルが知られていない、教師なしで弱い教師付き設定に焦点を当てる。
論文 参考訳(メタデータ) (2020-05-07T18:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。