論文の概要: HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios
- arxiv url: http://arxiv.org/abs/2506.09650v1
- Date: Wed, 11 Jun 2025 12:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.928012
- Title: HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios
- Title(参考訳): HopaDIFF:マルチパーソンシナリオにおける人間の行動セグメンテーション参照のためのホロスティック・パーティショナル・フーリエ条件付き拡散
- Authors: Kunyu Peng, Junchao Huang, Xiangsheng Huang, Di Wen, Junwei Zheng, Yufan Chen, Kailun Yang, Jiamin Wu, Chongqing Hao, Rainer Stiefelhagen,
- Abstract要約: アクションセグメンテーションは、未編集のビデオをセグメントに分割し、事前に定義されたアクションセットからラベルを割り当てることを目的とした、ハイレベルなビデオ理解における中核的な課題である。
本研究では,テキスト参照誘導型ヒューマンアクションセグメンテーションを多人数設定で開発する。
RHAS133は133本の映画から作成され、33時間のビデオデータによる137のきめ細かいアクションで注釈付けされている。
- 参考スコア(独自算出の注目度): 33.57092143884972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action segmentation is a core challenge in high-level video understanding, aiming to partition untrimmed videos into segments and assign each a label from a predefined action set. Existing methods primarily address single-person activities with fixed action sequences, overlooking multi-person scenarios. In this work, we pioneer textual reference-guided human action segmentation in multi-person settings, where a textual description specifies the target person for segmentation. We introduce the first dataset for Referring Human Action Segmentation, i.e., RHAS133, built from 133 movies and annotated with 137 fine-grained actions with 33h video data, together with textual descriptions for this new task. Benchmarking existing action recognition methods on RHAS133 using VLM-based feature extractors reveals limited performance and poor aggregation of visual cues for the target person. To address this, we propose a holistic-partial aware Fourier-conditioned diffusion framework, i.e., HopaDIFF, leveraging a novel cross-input gate attentional xLSTM to enhance holistic-partial long-range reasoning and a novel Fourier condition to introduce more fine-grained control to improve the action segmentation generation. HopaDIFF achieves state-of-the-art results on RHAS133 in diverse evaluation settings. The code is available at https://github.com/KPeng9510/HopaDIFF.git.
- Abstract(参考訳): アクションセグメンテーションは、未編集のビデオをセグメントに分割し、事前に定義されたアクションセットからラベルを割り当てることを目的とした、ハイレベルなビデオ理解における中核的な課題である。
既存の方法は、主に複数の人物のシナリオを見渡す、固定されたアクションシーケンスを持つ単一人物の活動に対処する。
本研究は,テキスト記述が対象人物にセグメンテーションを規定するマルチパーソン設定における,テキスト参照誘導型ヒューマンアクションセグメンテーションの先駆的手法である。
RHAS133は133本の映画から構築され、33時間のビデオデータによる137のきめ細かいアクションと、この新しいタスクのテキスト記述を付加したアノテートされている。
VLMをベースとした特徴抽出器を用いたRHAS133上の既存の行動認識手法のベンチマークにより、対象者に対する視覚的手がかりの限定的な性能と貧弱な集約が明らかとなった。
そこで本研究では,新たなクロスインプットゲート注意xLSTMを応用して,全体論的部分的長距離推論を強化し,アクションセグメンテーション生成を改善するためによりきめ細かい制御を導入することを目的とした,全体論的部分的Fourier対応拡散フレームワークであるHopaDIFFを提案する。
HopaDIFFは、さまざまな評価設定でRHAS133の最先端結果を達成する。
コードはhttps://github.com/KPeng9510/HopaDIFF.gitで公開されている。
関連論文リスト
- Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Real-time Human-Centric Segmentation for Complex Video Scenes [16.57620683425904]
人間」に関連する既存のビデオタスクのほとんどは、ビデオ内の未特定の他のタスクを無視して、有能な人間のセグメンテーションに焦点を当てている。
歩行者や他の州の人間を含む複雑なビデオの中で、すべての人間のセグメンテーションと追跡に焦点を当てた研究はほとんどない。
本稿では,HVISNetと略される新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-16T16:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。