論文の概要: Boundary-Centric Active Learning for Temporal Action Segmentation
- arxiv url: http://arxiv.org/abs/2604.15173v1
- Date: Thu, 16 Apr 2026 15:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.992907
- Title: Boundary-Centric Active Learning for Temporal Action Segmentation
- Title(参考訳): 時間的行動セグメンテーションのための境界中心アクティブラーニング
- Authors: Halil Ismail Helvaci, Sen-ching Samson Cheung,
- Abstract要約: B-ACTは,高平均境界領域に監督を明示的に割り当てる,クリップ予算のアクティブラーニングフレームワークである。
B-ACTは階層的な2段階のループで動作し、 (i) 予測の不確実性を用いてラベル付きビデオのランク付けとクエリを行い、 (ii) 選択されたビデオの中からトップ$K$境界を選択する。
- 参考スコア(独自算出の注目度): 0.34785805439031336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action segmentation (TAS) demands dense temporal supervision, yet most of the annotation cost in untrimmed videos is spent identifying and refining action transitions, where segmentation errors concentrate and small temporal shifts disproportionately degrade segmental metrics. We introduce B-ACT, a clip-budgeted active learning framework that explicitly allocates supervision to these high-leverage boundary regions. B-ACT operates in a hierarchical two-stage loop: (i) it ranks and queries unlabeled videos using predictive uncertainty, and (ii) within each selected video, it detects candidate transitions from the current model predictions and selects the top-$K$ boundaries via a novel boundary score that fuses neighborhood uncertainty, class ambiguity, and temporal predictive dynamics. Importantly, our annotation protocol requests labels for only the boundary frames while still training on boundary-centered clips to exploit temporal context through the model's receptive field. Extensive experiments on GTEA, 50Salads, and Breakfast demonstrate that boundary-centric supervision delivers strong label efficiency and consistently surpasses representative TAS active learning baselines and prior state of the art under sparse budgets, with the largest gains on datasets where boundary placement dominates edit and overlap-based F1 scores.
- Abstract(参考訳): 時間的アクションセグメンテーション(TAS)は、時間的監督を必要とするが、未トリミングビデオのアノテーションコストのほとんどは、セグメンテーションエラーに集中し、小さな時間的シフトが不均等にセグメンショナルメトリクスを分解するアクショントランジションの特定と精細化に費やされている。
我々は、これらの高平均境界領域に監督を明示的に割り当てるクリップ予算のアクティブラーニングフレームワークであるB-ACTを紹介する。
B-ACTは階層的な2段階のループで動作します。
一 予測不確実性を利用して、未表示映像をランク付けして検索すること。
(ii) 選択されたビデオ内において、現在のモデル予測からの候補遷移を検出し、近隣の不確実性、クラスあいまいさ、時間的予測ダイナミクスを融合させる新しい境界スコアを介して、上位$K$境界を選択する。
重要なことは、我々のアノテーションプロトコルが境界フレームのみのラベルを要求する一方で、境界中心のクリップをトレーニングし、モデルの受容領域を通して時間的コンテキストを活用することである。
GTEA、50Salads、Breakfastに関する大規模な実験は、境界中心の監督が強力なラベル効率を提供し、典型的なTASのアクティブラーニングベースラインと、スパース予算下での最先端の最先端を一貫して上回り、境界配置が編集と重複ベースのF1スコアを支配しているデータセットに最大の利益をもたらすことを実証している。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021 [33.840281113206444]
本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-07-27T06:18:21Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。