Fugu-MT 論文翻訳(概要): HR-Pro: Point-supervised Temporal Action Localization via Hierarchical Reliability Propagation

論文の概要: HR-Pro: Point-supervised Temporal Action Localization via Hierarchical Reliability Propagation

arxiv url: http://arxiv.org/abs/2308.12608v3
Date: Sat, 27 Jan 2024 05:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 22:07:23.914721
Title: HR-Pro: Point-supervised Temporal Action Localization via Hierarchical Reliability Propagation
Title（参考訳）: HR-Pro:階層的信頼性伝播による時間的行動局所化
Authors: Huaxin Zhang, Xiang Wang, Xiaohao Xu, Zhiwu Qing, Changxin Gao, Nong Sang
Abstract要約: PTAL(Point-supervised Temporal Action Localization)はラベル効率学習のための新たな研究方向である。本稿では,Snippetレベルの識別学習とインスタンスレベルの完全性学習という,信頼性に配慮した2つの段階からなる階層的信頼性向上フレームワークを提案する。私たちのHR-Proは、THUMOS14で平均60.3%の印象的なmAPを含む、複数の挑戦的なベンチマークで最先端のパフォーマンスを実現しています。
参考スコア（独自算出の注目度）: 40.52832708232682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Point-supervised Temporal Action Localization (PSTAL) is an emerging research direction for label-efficient learning. However, current methods mainly focus on optimizing the network either at the snippet-level or the instance-level, neglecting the inherent reliability of point annotations at both levels. In this paper, we propose a Hierarchical Reliability Propagation (HR-Pro) framework, which consists of two reliability-aware stages: Snippet-level Discrimination Learning and Instance-level Completeness Learning, both stages explore the efficient propagation of high-confidence cues in point annotations. For snippet-level learning, we introduce an online-updated memory to store reliable snippet prototypes for each class. We then employ a Reliability-aware Attention Block to capture both intra-video and inter-video dependencies of snippets, resulting in more discriminative and robust snippet representation. For instance-level learning, we propose a point-based proposal generation approach as a means of connecting snippets and instances, which produces high-confidence proposals for further optimization at the instance level. Through multi-level reliability-aware learning, we obtain more reliable confidence scores and more accurate temporal boundaries of predicted proposals. Our HR-Pro achieves state-of-the-art performance on multiple challenging benchmarks, including an impressive average mAP of 60.3% on THUMOS14. Notably, our HR-Pro largely surpasses all previous point-supervised methods, and even outperforms several competitive fully supervised methods. Code will be available at https://github.com/pipixin321/HR-Pro.
Abstract（参考訳）: PTAL(Point-supervised Temporal Action Localization)はラベル効率学習のための新たな研究方向である。しかし、現在のメソッドは主にスニペットレベルかインスタンスレベルのネットワークを最適化することに集中しており、両方のレベルでポイントアノテーションの固有の信頼性を無視している。本稿では、スニペットレベルの識別学習とインスタンスレベルの完全性学習の2つの段階からなる階層的信頼性伝搬(HR-Pro)フレームワークを提案する。スニペットレベル学習では,オンライン更新メモリを導入し,各クラスに信頼性の高いスニペットプロトタイプを格納する。次に、Reliability-aware Attention Blockを使用して、スニペットの動画内およびビデオ間の依存関係をキャプチャし、より差別的でロバストなスニペット表現を実現します。インスタンスレベルの学習では,スニペットとインスタンスを接続する手段として,ポイントベースの提案生成手法を提案する。多段階の信頼性認識学習により、予測された提案の信頼性と時間的境界をより正確に得ることができる。私たちのHR-Proは、THUMOS14で平均60.3%の印象的なmAPを含む、複数の挑戦的なベンチマークで最先端のパフォーマンスを実現しています。特に、我々のHR-Proは、これまでのすべてのポイント管理手法をはるかに上回り、競争力のある完全管理手法よりも優れています。コードはhttps://github.com/pipixin321/HR-Proで入手できる。

関連論文リスト

Enhancing Indoor Occupancy Prediction via Sparse Query-Based Multi-Level Consistent Knowledge Distillation [29.342333234658682]
DiSceneは、占有率予測のための新しいスパースクエリベースのフレームワークである。本手法は,(1)多段階連続的知識蒸留戦略,(2)教師指導初期化政策の2つの重要なイノベーションを取り入れている。ディープインテグレーションにより、DiSceneは新たなSOTAパフォーマンスを獲得し、EmbodiedOccを3.7%上回り、1.62$times$高速な推論速度を実現した。
論文参考訳（メタデータ） (2026-02-02T16:46:45Z)
Revisiting Logit Distributions for Reliable Out-of-Distribution Detection [73.9121001113687]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドアプリケーションにおけるディープラーニングモデルの信頼性を保証するために重要である。 LogitGapは、最大ロジットと残りのロジットの関係を利用する、ポストホックなOOD検出手法である。我々は、LogitGapが様々なOOD検出シナリオとベンチマークにわたって、最先端のパフォーマンスを一貫して達成していることを示す。
論文参考訳（メタデータ） (2025-10-23T02:16:45Z)
Uncertainty-Participation Context Consistency Learning for Semi-supervised Semantic Segmentation [9.546065701435532]
半教師付きセマンティックセグメンテーションは、広範囲なラベル付きデータへの依存を緩和する能力にかなりの注目を集めている。本稿では、よりリッチな監視信号を探索するために、不確かさ参加型コンテキスト一貫性学習(UCCL)手法を提案する。
論文参考訳（メタデータ） (2024-12-23T06:49:59Z)
Cross Domain Object Detection via Multi-Granularity Confidence Alignment based Mean Teacher [14.715398100791559]
クロスドメインオブジェクト検出は、注釈付きソースドメインから知識を転送することで、ラベルなしターゲットドメインのオブジェクト検出器を学習する。本研究では,カテゴリレベルの過信,インスタンスレベルのタスクの信頼性の不整合,イメージレベルの信頼の誤認など,予測の信頼性の誤調整が,対象領域における準最適性能をもたらすことを見出した。
論文参考訳（メタデータ） (2024-07-10T15:56:24Z)
Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation [7.005068872406135]
平均教師と共同学習に基づくアプローチは、確認バイアスと結合問題を緩和するために用いられる。これらのアプローチは、複雑なトレーニングパイプラインとかなりの計算負担を伴うことが多い。本稿では,トレーニングプロセス中に得られた時間的知識を最大限活用することにより,制約を効果的に緩和するPrevMatchフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-31T03:54:59Z)
BECLR: Batch Enhanced Contrastive Few-Shot Learning [1.450405446885067]
教師なしの少数ショット学習は、トレーニング時にアノテーションへの依存を捨てることで、このギャップを埋めようとしている。本稿では,高度に分離可能な潜在表現空間を促進するために,新しい動的クラスタ mEmory (DyCE) モジュールを提案する。そして、数ショットの推論段階でサンプルバイアスの問題に取り組みます。
論文参考訳（メタデータ） (2024-02-04T10:52:43Z)
Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2023-12-13T09:32:50Z)
Towards End-to-end Semi-supervised Learning for One-stage Object Detection [88.56917845580594]
本稿では,高度な一段検出ネットワークYOLOv5の半教師付き学習に焦点を当てた。そこで我々は,Multi-view Pseudo-label Refinement (MPR) とDecoupled Semi-supervised Optimization (DSO) の2つの革新的な設計を取り入れた新しい教師学習レシピOneTeacherを提案する。特に、MPRは、拡張ビューリファインメントとグローバルビューフィルタリングによって擬似ラベルの品質を改善し、DSOは構造的な微調整とタスク固有の擬似ラベルによる共同最適化競合を処理する。
論文参考訳（メタデータ） (2023-02-22T11:35:40Z)
Active Learning with Effective Scoring Functions for Semi-Supervised Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。本稿では,AL-STALという効果的な能動学習手法を提案する。実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文参考訳（メタデータ） (2022-08-31T13:39:38Z)
Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文参考訳（メタデータ） (2021-12-09T18:59:14Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文参考訳（メタデータ） (2021-04-06T13:12:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。