論文の概要: OTAS: Unsupervised Boundary Detection for Object-Centric Temporal Action
Segmentation
- arxiv url: http://arxiv.org/abs/2309.06276v1
- Date: Tue, 12 Sep 2023 14:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:30:49.142769
- Title: OTAS: Unsupervised Boundary Detection for Object-Centric Temporal Action
Segmentation
- Title(参考訳): OTAS: オブジェクト中心の時間的行動セグメンテーションのための教師なし境界検出
- Authors: Yuerong Li, Zhengrong Xue, Huazhe Xu
- Abstract要約: 対象中心時間行動(OTAS)の教師なしフレームワークを提案する。
OTASは、自己管理されたグローバルおよびローカルな特徴抽出モジュールで構成されている。
OTAS は従来の最先端手法よりも F1 を推奨する点において,平均 41% で優れている。
- 参考スコア(独自算出の注目度): 25.925905305722374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation is typically achieved by discovering the
dramatic variances in global visual descriptors. In this paper, we explore the
merits of local features by proposing the unsupervised framework of
Object-centric Temporal Action Segmentation (OTAS). Broadly speaking, OTAS
consists of self-supervised global and local feature extraction modules as well
as a boundary selection module that fuses the features and detects salient
boundaries for action segmentation. As a second contribution, we discuss the
pros and cons of existing frame-level and boundary-level evaluation metrics.
Through extensive experiments, we find OTAS is superior to the previous
state-of-the-art method by $41\%$ on average in terms of our recommended F1
score. Surprisingly, OTAS even outperforms the ground-truth human annotations
in the user study. Moreover, OTAS is efficient enough to allow real-time
inference.
- Abstract(参考訳): 時間的アクションセグメンテーションは、一般的に、グローバルな視覚的記述子の劇的なばらつきを発見することで達成される。
本稿では,オブジェクト中心の時間的行動セグメンテーション(OTAS)の教師なしフレームワークを提案することにより,局所的特徴の利点を考察する。
OTASは、グローバルおよびローカルな特徴抽出モジュールと、特徴を融合させ、アクションセグメンテーションのための健全な境界を検出する境界選択モジュールで構成されている。
第2の貢献として、既存のフレームレベルおよび境界レベルの評価指標の長所と短所について論じる。
広範な実験により, OTAS は従来の最先端手法よりも F1 を推奨する点において, 平均 411 % で優れていることがわかった。
意外なことに、OTASはユーザー研究において、地味な人間のアノテーションよりも優れています。
さらに、OTASはリアルタイム推論を可能にするのに十分な効率である。
関連論文リスト
- Action-Agnostic Point-Level Supervision for Temporal Action Detection [55.86569092972912]
そこで本研究では,光注釈付きデータセットを用いた時間的行動検出のためのアクション非依存のポイントレベル監視を提案する。
提案手法では,ビデオフレームのごく一部を教師なしの方法でサンプリングし,人間のアノテータに提示し,そのフレームにアクションカテゴリをラベル付けする。
トリミングされていないビデオですべてのアクションインスタンスを検索するアノテータを必要とするポイントレベルの監視とは異なり、アノテートするフレームは人間の介入なしに選択される。
論文 参考訳(メタデータ) (2024-12-30T18:59:55Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021 [33.840281113206444]
本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-07-27T06:18:21Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。