論文の概要: Towards Open-World Human Action Segmentation Using Graph Convolutional Networks
- arxiv url: http://arxiv.org/abs/2507.00756v1
- Date: Tue, 01 Jul 2025 14:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.652322
- Title: Towards Open-World Human Action Segmentation Using Graph Convolutional Networks
- Title(参考訳): グラフ畳み込みネットワークを用いたオープンワールドヒューマンアクションセグメンテーションに向けて
- Authors: Hao Xing, Kai Zhe Boey, Gordon Cheng,
- Abstract要約: 既存の学習ベースの手法は、クローズドワールドアクションセグメンテーションに優れている。
本研究では,目に見えない動作を検出し,セグメンテーションするための構造化フレームワークを提案する。
我々は,2つの挑戦的対象認識データセットについて,その枠組みを評価する。
- 参考スコア(独自算出の注目度): 6.167678490008973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-object interaction segmentation is a fundamental task of daily activity understanding, which plays a crucial role in applications such as assistive robotics, healthcare, and autonomous systems. Most existing learning-based methods excel in closed-world action segmentation, they struggle to generalize to open-world scenarios where novel actions emerge. Collecting exhaustive action categories for training is impractical due to the dynamic diversity of human activities, necessitating models that detect and segment out-of-distribution actions without manual annotation. To address this issue, we formally define the open-world action segmentation problem and propose a structured framework for detecting and segmenting unseen actions. Our framework introduces three key innovations: 1) an Enhanced Pyramid Graph Convolutional Network (EPGCN) with a novel decoder module for robust spatiotemporal feature upsampling. 2) Mixup-based training to synthesize out-of-distribution data, eliminating reliance on manual annotations. 3) A novel Temporal Clustering loss that groups in-distribution actions while distancing out-of-distribution samples. We evaluate our framework on two challenging human-object interaction recognition datasets: Bimanual Actions and 2 Hands and Object (H2O) datasets. Experimental results demonstrate significant improvements over state-of-the-art action segmentation models across multiple open-set evaluation metrics, achieving 16.9% and 34.6% relative gains in open-set segmentation (F1@50) and out-of-distribution detection performances (AUROC), respectively. Additionally, we conduct an in-depth ablation study to assess the impact of each proposed component, identifying the optimal framework configuration for open-world action segmentation.
- Abstract(参考訳): 人間と物体の相互作用のセグメンテーションは、日常的な活動を理解するための基本的なタスクであり、補助ロボット、医療、自律システムといったアプリケーションにおいて重要な役割を果たす。
既存の学習ベースの手法は、クローズドワールドのアクションセグメンテーションに優れており、新しいアクションが出現するオープンワールドのシナリオに一般化するのに苦労している。
トレーニングのための徹底的なアクションカテゴリの収集は、人間の活動のダイナミックな多様性、手動のアノテーションなしでアウト・オブ・ディストリビューションアクションを検出しセグメンテーションするモデルを必要とするため、現実的ではない。
この問題に対処するために,オープンワールドのアクションセグメンテーション問題を正式に定義し,未知のアクションを検出し,セグメンテーションするための構造化フレームワークを提案する。
私たちのフレームワークには3つの重要なイノベーションがあります。
1) 高機能化ピラミッドグラフ畳み込みネットワーク(EPGCN)と高機能化のためのデコーダモジュール。
2)手動アノテーションへの依存をなくし,配布外のデータを合成するための混合学習。
3)ディストリビューション・サンプルを分散させながらディストリビューション・アクションをグループ化する新たな時間的クラスタリング・ロス。
我々は,2つの人・物間相互作用認識データセットであるバイマナルアクションと2つのハンド・アンド・オブジェクト(H2O)データセットについて,その枠組みを評価した。
実験の結果、複数のオープンセット評価指標における最先端アクションセグメンテーションモデルを大幅に改善し、オープンセットセグメンテーション(F1@50)とアウト・オブ・ディストリビューション検出性能(AUROC)において16.9%、34.6%の相対的なゲインを達成した。
さらに,オープンワールドアクションセグメンテーションのための最適なフレームワーク構成を同定し,各コンポーネントの影響を詳細に評価する。
関連論文リスト
- One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。
私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。
我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2025-03-03T03:50:54Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Leveraging triplet loss for unsupervised action segmentation [0.0]
本稿では,アクションセグメンテーションタスクに適したアクション表現を,単一入力ビデオ自体から学習する,完全に教師なしのフレームワークを提案する。
本手法は,三重項損失が類似度分布に作用する浅層ネットワークに根ざした深部距離学習手法である。
このような状況下では、既存の教師なしアプローチと比較して、学習された行動表現の時間的境界を高い品質で回復することに成功した。
論文 参考訳(メタデータ) (2023-04-13T11:10:16Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。